Bilde av en llm på bakgrunn med andre elementer

Inside LLMs: How ChatGPT Thinks

Avatar av Luis Antonio Costa
Forstå hva LLM-er er og hvordan de fungerer, hjernen bak AI-agenter som ChatGPT

Alle som blir spurt hvordan ChatGPT, den mest populære AI-agenten i dag fungerer, vil mange ha svaret på tuppen av tungen: kunstig intelligens. Men det svaret er veldig vagt. Til tross for at det er et av studieretningene med størst forskning og utvikling innen databehandling i dag, omfatter kunstig intelligens flere vitenskapelige temaer.

En av dem er nøkkelen bak hvordan ChatGPT og de fleste AI-agenter tilgjengelig på nettet fungerer: LLM-er. I denne artikkelen vil vi utforske i detalj hvordan dette konseptet revolusjonerte kunstig intelligens og vår verden.

Hva er store språkmodeller (LLM)?

Store språkmodeller (LLMs, Large Language Models, på portugisisk) er algoritmer for Dyp læring (Deep Learning, på portugisisk) i stand til å utføre en rekke oppgaver Natural Language Processing (Naturlig språkbehandling, på portugisisk). Puh, så mange akronymer, ikke sant?

LLM-er bruker transformatormodeller og trenes ved hjelp av massive datasett. Noen eksempler på populære datasett er: LAION-2B-en, CCAW e WikiText-103. En transformatormodell kan virke som en robot som forvandles til en bil, men innen AI er det den vanligste arkitekturen for en LLM.

Transformatoren består av en encoder (koder, på portugisisk) og en dekoder (dekoder, på portugisisk). I utgangspunktet er koderen ansvarlig for å skille ordene i en setning eller tekst i små deler kalt tokens, og dekoderen utfører matematiske operasjoner for å identifisere relasjoner mellom disse tokens.

Forenklet transformatorarkitektur
Transformatorarkitekturen koder ord og setninger i koderen og dekoder dem med dekoderen som skal brukes av LLM. (Bilde: Showmetech)

Den store forskjellen mellom transformatorer og arkitekturen som ble brukt for år siden, LSTM (Langt korttidsminne, eller Long Short Term Memory), er at transformatorer arbeider med selvoppmerksomhetsmekanismer, det vil si at de er i stand til å lære raskere når de vurderer deler av en setning eller til og med dens kontekst, for å generere spådommer.

LLM-er er allsidige AI-systemer som i tillegg til å kunne behandle menneskelig språk, også kan utføre andre oppgaver som å analysere proteinstrukturer og generere programmeringskode. For å fungere effektivt krever LLM-er forhåndstrening og nøye justering for å håndtere funksjoner som tekstklassifisering, oppsummering og spørsmålssvar, noe som gjør dem verdifulle for bransjer som helsevesen, finans og underholdning.

Nøkkelkomponenter

LLM-er er sammensatt av flere lag med nevrale nettverk. I et nevralt nettverk (Nevrale nettverket, på engelsk), brukes i utgangspunktet en variabel som input, behandlet med forskjellige vekter og matematiske ligninger av ett eller flere lag, og en utgangsverdi genereres.

Den første typen nevrale nettverk som finnes i LLM-er er innebyggingslaget (innebygde lag, på engelsk). Den er ansvarlig for innbyggingsprosessen, og fanger inn semantikken og den syntaktiske betydningen av input, slik at modellen kan forstå konteksten.

Deretter har vi feedforward-laget (FFN, Feedforward Network, på engelsk) som er sammensatt av flere sammenkoblede lag som transformerer innbyggingsinngangene. I denne prosessen lar disse lagene modellen samle abstraksjoner på høyere nivå, dvs. forstå brukerens hensikt med tekstinndata.

Nøkkelkomponenter i en llm beskrevet
Neural Network, Embedding Layer og Feedforward Network er nøkkelkomponentene for hvordan en LLM skal fungere. (Bilde: Showmetech)

Deretter har vi det tilbakevendende laget som tolker ordene i inndatateksten i rekkefølge. Det er ansvarlig for å fange forholdet mellom ord i en setning.

Sist, men ikke minst, har vi oppmerksomhetsmekanismen som gjør at LLM kan fokusere på enkeltdeler av inndatateksten som er relevante for den tildelte oppgaven. Dette laget lar modellen generere de mest passende og nøyaktige utdataene.

hvordan de fungerer

Nå som vi vet hva LLM er og hva deres nøkkelkomponenter er, kan vi forstå mer tydelig hvordan de fungerer. I utgangspunktet tar transformatorbaserte LLM-er en inngang, koder den og dekoder den for å produsere en forutsagt utgang. Men før en LLM kan ta en tekstinndata og generere en forutsagt utgang, trenger den trening for å utføre generelle funksjoner og finjustering for å gjøre den i stand til å utføre spesifikke oppgaver.

Før trening (Førtrening, på engelsk) er en klassisk prosess innen feltet Maskinlæring (Maskinlæring, på engelsk) innen kunstig intelligens. Denne prosessen, som navnet antyder, består av forhåndstrening av LLM-er ved å bruke store tekstdatasett med billioner av ord fra nettsteder som f.eks. Wikipedia, GitHub, mellom andre. Tross alt må LLM lære fra et sted, som et lite barn, ikke sant?

I løpet av dette stadiet utfører LLM såkalt uovervåket læring (Uovervåket læring, på engelsk) – en prosess der datasett ganske enkelt leses uten spesifikke manipulasjonsinstruksjoner. Med andre ord, uten en "instruktør", er LLMs egen AI-algoritme ansvarlig for å lære betydningen av hvert ord og relasjonene mellom dem. I tillegg lærer LLM også å skille ord basert på kontekst. For eksempel lærer hun å forstå om «høyre» betyr «riktig» eller bare er «det motsatte av venstre».

Nå finjusteringsprosessen (Finjustering, på engelsk) tjener til å nøyaktig "justere" LLM for å effektivt utføre spesifikke oppgaver, for eksempel tekstoversettelse, og optimalisere ytelsen. Justering av spørsmål (spørsmål og instruksjoner gitt til LLM) fungerer som en slags finjustering, da det er i stand til å trene modellen til å utføre en bestemt oppgave.

Maskinlæringsmodeller: forhåndstrening, uovervåket læring og finjustering.
Designprosessen bak en LLM består av 3 hovedtrinn: Pre-Training, Unsupervised Learning og Fine Tuning. (Bilde: Showmetech)

For at en stor språkmodell skal utføre en spesifikk oppgave, for eksempel oversettelse, må den være innstilt for den spesifikke oppgaven. Finjustering optimerer ytelsen for spesifikke oppgaver.

Spørsmålsinnstilling har en lignende funksjon som finjustering, og trener en modell til å utføre en spesifikk oppgave gjennom få-prøvemeldinger, eller null-prøvemeldinger. Nedenfor er et eksempel på en "sentimentanalyse"-øvelse ved hjelp av en få skudds prompt:

Texto de entrada: Essa casa é linda!
Sentimento da frase: Positivo

Texto de entrada: Essa casa é horrível!
Sentimento da frase: Negativo

Basert på resultatene oppnådd i dette eksemplet, vil LLM forstå, gjennom den semantiske betydningen av "fryktelig" og fordi et motsatt eksempel ble gitt, at brukerens følelse i det andre eksemplet er "negativ".

Bruksscenarier

Som vi nevnte tidligere, kan LLM-er brukes til flere formål:

  • Informasjonsinnhenting: I dette tilfellet kan vi forestille oss bruken i nettsøkemotorer, som Google eller Bing. Når en bruker bruker søkefunksjonen til disse tjenestene, bruker de LLM-er for å produsere informasjon i form av et svar på forespørselen deres. LLM-er er i stand til å hente informasjon, oppsummere den og kommunisere responsen i form av en samtale med brukeren.
  • Generering av tekst og programmeringskode: LLM-er er hovedmotoren bak Generativ AI som ChatGPT, og kan generere tekst og programmeringskode basert på innganger og spørsmål. ChatGPT er for eksempel i stand til å forstå mønstre og kan effektivt svare på brukerforespørsler som "skriv et dikt om blomster i stil med Manuel Bandeira" eller "skriv en Python-kode som er i stand til å sortere en liste over filmer i alfabetisk rekkefølge".
  • Chatboter og konversasjons-AIer: LLM-er er allerede i stand til å tilby kundeservice gjennom chatbot-agenter som snakker med forbrukere, tolker betydningen av deres spørsmål og bekymringer, og tilbyr passende svar eller veiledning.

I tillegg til disse bruksscenarioene, viser LLM-er seg å være et lovende AI-verktøy innen teknologi, helse og vitenskap, markedsføring, jus og også for bruk i banksystemer. For å gi deg en idé, er LLM-er for tiden i stand til å forutsi med høy grad av nøyaktighet forekomst av brystkreft ganske enkelt å analysere sett med celleprøver med et høyere nivå av nøyaktighet enn mange erfarne klinikere.

Robot snakker med en lege på bakgrunn med grafikk
Helsefeltet kan ha stor nytte av å bruke LLM-er for oppgaveautomatisering. (Bilde: Reproduksjon/Cogitotech)

LLM og Generative Pre-Trained Transformer (GPT)

O Generativ forhåndstrent transformator (GPT) er en spesifikk type LLM som bruker en transformatorarkitektur og ble utviklet av selskapet OpenAI. Den er designet for å forstå, generere og manipulere naturlig språk (som portugisisk eller engelsk) på en svært effektiv og realistisk måte.

Ved å bryte ned navnet kan vi bedre forstå hva en GPT er:

  • Generativ (Generativ, på portugisisk): indikerer at modellen genererer tekst, det vil si at den er i stand til å produsere nye setninger, svar, sammendrag, koder osv.
  • Forhåndsutdannet (Forhåndstrenet, på portugisisk): Det betyr at den er forhåndstrent på en stor mengde tekst fra internett, som bøker, artikler, nettsider og annet. Den kan deretter justeres for spesifikke oppgaver.
  • Transformator: Som vi nevnte tidligere, er dette den nevrale nettverksarkitekturen som danner grunnlaget for modellen. Den er svært parallelliserbar (kan utføre flere oppgaver samtidig) og effektiv til å håndtere lange tekstsekvenser.
Openia chatgpt med en hjerne på siden og elektroniske kretser
ChatGPT, fra selskapet OpenAI, er den mest kjente AI-agenten som bruker GPT-modellen. (Bilde: Reproduksjon/Knowledgiate)

Den store forskjellen mellom GPT og andre LLM-er er opplæringsfasen, som består av 3 forskjellige prosesser:

  • Før trening: Enorme mengder data trekkes ut fra Internett, bøker og til og med videoer og musikk, og deretter behandles til tokens.
  • Finjusteringsinstruksjoner: Her "læres" modellen om hvordan den skal reagere på spesifikke instruksjoner, og justere svarene slik at de er mer nøyaktige.
  • Forsterkende læring ved menneskelig tilbakemelding: i likhet med finjustering, her gjøres "undervisningen" gjennom menneskelig tilbakemelding som induserer prosessen med "forsterkende læring", der AI lærer hva som er "riktig" og hva som er "galt" gjennom repetisjoner og informasjon gitt av en ekstern agent, i dette tilfellet, brukeren som bruker AI.

Historie: fra milliarder av ord til komplekse tekster

Selv om boomen i språkmodeller først skjedde i 2017, siden 1990 var IBMs tilpasningsmodeller pionerer innen statistisk språkmodellering. I 2001 oppnådde en modell trent på 3 millioner ord "state of art" når det gjelder nøyaktighet i å tolke tekster og konstruere sammenhengende setninger.

Kunstig intelligens og teknologi i fokus, med vekt på innovative ressurser og moderne teknologiske fremskritt.
Million for million ble LLM-er mer robuste og utførte mer komplekse oppgaver. (Bilde: Reproduksjon/Singularity Hub)

Fra 2012 og utover Nevrale nettverk fikk mer fremtreden i AI-verdenen og begynte snart å bli brukt til språkoppgaver. I 2016 tok Google i bruk Neural Machine Oversettelse (Neural Machine Translation, på portugisisk) ved hjelp av modeller basert på dette konseptet. I 2018 gikk selskapet OpenAI all in på utviklingen av AI-agenter basert på LLM-er og lanserte GPT-1 for testing, og det var først året etter at GPT-2 begynte å tiltrekke seg offentlig oppmerksomhet på grunn av potensielle uetiske bruksområder.

I 2020 GPT-3 ankom med begrenset tilgang kun via API, men det var først i 2022 at ChatGPT (AI-agenten "drevet" av GPT-3) fanget oppmerksomheten til publikum over hele verden.
GPT-4 skal lanseres i 2023 med multimodale muligheter, selv om tekniske detaljer ikke er utgitt. I 2024 lanserte OpenAI modell o1, fokusert på å generere lange kjeder av resonnement. Disse verktøyene har drevet den utbredte bruken av LLM-er på tvers av ulike forskningsfelt.

Chatgpt, kunstig intelligens, virtuell assistent, innovasjon innen teknologi.
Fra og med 2022 har LLM-er fått verdensomspennende fremtreden når de brukes i ChatGPT, en av de mest populære AI-agentene gjennom tidene. (Bilde: Reproduksjon/OpenAI)

Fra og med 2024 er alle de største og mest effektive LLM-ene basert på transformatorarkitekturen, med noen forskere som eksperimenterer og tester med andre arkitekturer, som f.eks. Gjentatte nevrale nettverk (Recurrent Neural Networks, på portugisisk).

Fordelene og begrensningene til LLM-er

Med et bredt spekter av applikasjoner er LLM-er eksepsjonelt fordelaktige for problemløsning da de gir informasjon på en klar og enkel stil som er lett for brukere å forstå. I tillegg kan de brukes til språkoversettelse, setningsfullføring, sentimentanalyse, svar på spørsmål, matematiske ligninger og mer.

Ytelsen til LLM-er blir stadig bedre ettersom den vokser ettersom flere data og parametere legges til. Med andre ord, jo mer du lærer, jo bedre blir du. I tillegg kan store språkmodeller vise det som kalles «læring i kontekst». Når en LLM har blitt forhåndsopplært, lar den få skudds-prompten modellen lære av ledeteksten uten noen ekstra parametere. På denne måten lærer han kontinuerlig.

Ved å demonstrere læring i kontekst, lærer LLM-er raskt fordi de ikke krever ekstra vekt, ressurser og parametere for trening. De er raske i den forstand at de ikke krever mange eksempler for å bli mer "intelligente".

Hjernelæring fra flere kilder
Som alle AI-baserte algoritmer lærer LLM bedre jo mer data de bruker og analyserer. (Bilde: Reproduksjon/innebygd)

En nøkkelfunksjon ved LLM-er er deres evne til å svare på uforutsigbare spørsmål. Et tradisjonelt dataprogram mottar for eksempel kommandoer i sin aksepterte syntaks eller fra et gitt sett med brukerinndata. På den annen side kan en LLM svare på naturlig menneskelig språk og bruke dataanalyse for å svare på et ustrukturert spørsmål eller forespørsel på en måte som gir mening. Mens et typisk dataprogram ikke vil gjenkjenne en melding som "Hva er de fem største rockebandene i historien?", kan en LLM svare med en liste over fem slike band og en rimelig overbevisende sak for hvorfor de er de beste.

Når det gjelder informasjonen de gir, kan imidlertid LLM-er bare være like pålitelige som dataene de mottar. Hvis de mottar falsk informasjon i føropplæringsfasen, vil de gi falsk informasjon som svar på brukerhenvendelser. Noen ganger kan LLM-er også "hallusinere" ved å lage svar og til og med falske litterære kilder når de ikke er i stand til å gi et nøyaktig svar.

For eksempel i 2022, nyhetsbyrået Fast Company spurte ChatGPT om selskapets forrige finanskvartal Tesla. Mens ChatGPT ga en sammenhengende nyhetsartikkel som svar, var mye av informasjonen i den laget. Siden det er et AI-basert system, er det kjent at det stadig forbedres, men det er fortsatt feil å stole på 100 % av svarene som produseres av LLM-er.

Når det gjelder sikkerhet, er brukervendte applikasjoner basert på LLM-er like utsatt for feil som alle andre applikasjoner. LLM-er kan også manipuleres gjennom ondsinnede input for å gi visse typer svar fremfor andre, inkludert farlige eller uetiske svar.

Lego chatbot gjør feil i oppgaver
AI-systemer basert på LLM-er er ennå ikke idiotsikre, og kan gjøre feil og svare med falsk informasjon. (Bilde: Reproduksjon/IEEE Spectrum)

Til slutt, et av sikkerhetsproblemene med LLM-er er at brukere kan laste opp sikre og konfidensielle data for å øke sin egen produktivitet. Men LLM-er bruker inndataene de mottar for å videreutdanne modellene sine, og er ikke designet for å være sikre hvelv, da de kan avsløre sensitive data som svar på spørsmål fra andre brukere.

LLM-er og intelligensen bak ord

Som et barn sluppet løs i et gigantisk bibliotek, er LLM-er intelligente AI-systemer som lærer å forstå og reprodusere naturlig menneskelig språk basert på enorme mengder data. Mens det gir mange fordeler for vanlige brukere og blir et kraftig hjelpeverktøy i det profesjonelle miljøet, må mulighetene og farene ved LLM fortsatt studeres veldig nøye.

Og du, hva syntes du om forklaringen i denne artikkelen om LLM? Legg igjen din mening i kommentarene.

se mer

Kilder: Elasticsearch, CloudFare, IBM

Anmeldt av Tiago Rodrigues på 16


Oppdag mer om Showmetech

Registrer deg for å motta siste nytt på e-post.

Relaterte innlegg