Citat:
Nej det kan de inte, var får du allt ifrån?
uppmärksamhetshuvuden eller attention-heads som du pratar om gör enbart en sak och det är att vikta token mot varandra, dvs det är vad som får arkitekturen att förstå kontext. det finns ingen "cirkulation av data" överhuvudtaget i en transformer allt är feed forward.
Och var ifrån har du fått att det finns attention heads i början och slutet på "nätverket"... En attention head är ett nätverk i sig, ett litet och det sitter i "början" på en transformer, sedan skickas det in i ett större feedforward nätverk. Detta är ett lager, en modell består av flera lager så varje lager ser ut så men lager kommunicerar inte sins emellan överhuvudtaget (jag menar alltså ett senare lager kommunicerar inte med tidigare lager, däremot får lager 2 resultatet av lager 1s output, det är helt sekventiellt) utan det är "viskningsleken" precis som att du skulle höra någonting sedan viska det till en annan person, som i sin tur viskar vidare. Dvs det finns ingen cirkulation av data från ett "senare" lager till något tidigare någonstans i modellen annat än att varje output skickas in i nätverket efter det presenterats till användaren. Själva valet av "token" sker sist i nätverket och innan dess är det bara embedding vektorer som skickas mellan lagren.
Alltså för att försöka beskriva hela processen så tydligt det går.
Är att skriver du frågan (nu exkluderar jag helt systempromptar osv som du inte ser, men som skickas dolt till modellen)
Ola: "Vem är du?"
Nätverket får in "Vem är du?" och första token som kommer ut är "Jag"
Sedan skickas "Vem är du? Jag" och nästa iteration kommer "är" ut,
"Vem är du? Jag är" nästa token blir "ChatGPT".
Det är inget som är dolt för dig som användare överhuvudtaget, utan det är precis vad du ser och anledningen till att ChatGPT skriver "ord för ord".
Det du inte ser är att det är en stor mängd dold text som berättar massa saker för modellen hur den ska bete sig, vad dagens datum är, vilken knowledge cutoff den har, hur den ska använda externa verktyg och när den ska använda detta osv.
uppmärksamhetshuvuden eller attention-heads som du pratar om gör enbart en sak och det är att vikta token mot varandra, dvs det är vad som får arkitekturen att förstå kontext. det finns ingen "cirkulation av data" överhuvudtaget i en transformer allt är feed forward.
Och var ifrån har du fått att det finns attention heads i början och slutet på "nätverket"... En attention head är ett nätverk i sig, ett litet och det sitter i "början" på en transformer, sedan skickas det in i ett större feedforward nätverk. Detta är ett lager, en modell består av flera lager så varje lager ser ut så men lager kommunicerar inte sins emellan överhuvudtaget (jag menar alltså ett senare lager kommunicerar inte med tidigare lager, däremot får lager 2 resultatet av lager 1s output, det är helt sekventiellt) utan det är "viskningsleken" precis som att du skulle höra någonting sedan viska det till en annan person, som i sin tur viskar vidare. Dvs det finns ingen cirkulation av data från ett "senare" lager till något tidigare någonstans i modellen annat än att varje output skickas in i nätverket efter det presenterats till användaren. Själva valet av "token" sker sist i nätverket och innan dess är det bara embedding vektorer som skickas mellan lagren.
Alltså för att försöka beskriva hela processen så tydligt det går.
Är att skriver du frågan (nu exkluderar jag helt systempromptar osv som du inte ser, men som skickas dolt till modellen)
Ola: "Vem är du?"
Nätverket får in "Vem är du?" och första token som kommer ut är "Jag"
Sedan skickas "Vem är du? Jag" och nästa iteration kommer "är" ut,
"Vem är du? Jag är" nästa token blir "ChatGPT".
Det är inget som är dolt för dig som användare överhuvudtaget, utan det är precis vad du ser och anledningen till att ChatGPT skriver "ord för ord".
Det du inte ser är att det är en stor mängd dold text som berättar massa saker för modellen hur den ska bete sig, vad dagens datum är, vilken knowledge cutoff den har, hur den ska använda externa verktyg och när den ska använda detta osv.
Ok, såväl ChatGPT4o som Claude 3.5 Sonnet har uppgett att de kontrollerar sitt out-put, inne, de skickar det till användaren och att modellerna, vid behov, justerar det innan det går till användaren. Vad gäller Claude 3.5 så kan du be modellen att använda notationen "$$" istället för den vanliga "<>" för att få en demonstration. Men du hävdar alltså att Antropic bara lagt in detta som "underhållning". (Det går inte att göra samma sak med ChatGPT-4o).
Angående metoden som modellerna använder för själv justering var bara en hypotes ifrån min sida, (jag undrar just om någon forskare provat något sådant?) Hur sem helst så uppgick de själva att de sysslar med Självjustering, men kanske då under "resans gång" genom nätverket. För din tekniska beskrivning av hur LLM-Transformers fungerar stämmer med det jag lärt mig tidigare, och den tackar jag för!
__________________
Senast redigerad av Ola Schubert 2024-07-11 kl. 22:01.
Senast redigerad av Ola Schubert 2024-07-11 kl. 22:01.