Flashback bygger pepparkakshus!
2024-07-11, 21:46
  #37
Medlem
Ola Schuberts avatar
Citat:
Ursprungligen postat av BeneathTheSurface
Nej det kan de inte, var får du allt ifrån?

uppmärksamhetshuvuden eller attention-heads som du pratar om gör enbart en sak och det är att vikta token mot varandra, dvs det är vad som får arkitekturen att förstå kontext. det finns ingen "cirkulation av data" överhuvudtaget i en transformer allt är feed forward.

Och var ifrån har du fått att det finns attention heads i början och slutet på "nätverket"... En attention head är ett nätverk i sig, ett litet och det sitter i "början" på en transformer, sedan skickas det in i ett större feedforward nätverk. Detta är ett lager, en modell består av flera lager så varje lager ser ut så men lager kommunicerar inte sins emellan överhuvudtaget (jag menar alltså ett senare lager kommunicerar inte med tidigare lager, däremot får lager 2 resultatet av lager 1s output, det är helt sekventiellt) utan det är "viskningsleken" precis som att du skulle höra någonting sedan viska det till en annan person, som i sin tur viskar vidare. Dvs det finns ingen cirkulation av data från ett "senare" lager till något tidigare någonstans i modellen annat än att varje output skickas in i nätverket efter det presenterats till användaren. Själva valet av "token" sker sist i nätverket och innan dess är det bara embedding vektorer som skickas mellan lagren.

Alltså för att försöka beskriva hela processen så tydligt det går.

Är att skriver du frågan (nu exkluderar jag helt systempromptar osv som du inte ser, men som skickas dolt till modellen)

Ola: "Vem är du?"
Nätverket får in "Vem är du?" och första token som kommer ut är "Jag"
Sedan skickas "Vem är du? Jag" och nästa iteration kommer "är" ut,
"Vem är du? Jag är" nästa token blir "ChatGPT".

Det är inget som är dolt för dig som användare överhuvudtaget, utan det är precis vad du ser och anledningen till att ChatGPT skriver "ord för ord".

Det du inte ser är att det är en stor mängd dold text som berättar massa saker för modellen hur den ska bete sig, vad dagens datum är, vilken knowledge cutoff den har, hur den ska använda externa verktyg och när den ska använda detta osv.

Ok, såväl ChatGPT4o som Claude 3.5 Sonnet har uppgett att de kontrollerar sitt out-put, inne, de skickar det till användaren och att modellerna, vid behov, justerar det innan det går till användaren. Vad gäller Claude 3.5 så kan du be modellen att använda notationen "$$" istället för den vanliga "<>" för att få en demonstration. Men du hävdar alltså att Antropic bara lagt in detta som "underhållning". (Det går inte att göra samma sak med ChatGPT-4o).

Angående metoden som modellerna använder för själv justering var bara en hypotes ifrån min sida, (jag undrar just om någon forskare provat något sådant?) Hur sem helst så uppgick de själva att de sysslar med Självjustering, men kanske då under "resans gång" genom nätverket. För din tekniska beskrivning av hur LLM-Transformers fungerar stämmer med det jag lärt mig tidigare, och den tackar jag för!
__________________
Senast redigerad av Ola Schubert 2024-07-11 kl. 22:01.
Citera
2024-07-11, 22:31
  #38
Medlem
BeneathTheSurfaces avatar
Citat:
Ursprungligen postat av Ola Schubert
Ok, såväl ChatGPT4o som Claude 3.5 Sonnet har uppgett att de kontrollerar sitt out-put, inne, de skickar det till användaren och att modellerna, vid behov, justerar det innan det går till användaren. Vad gäller Claude 3.5 så kan du be modellen att använda notationen "$$" istället för den vanliga "<>" för att få en demonstration. Men du hävdar alltså att Antropic bara lagt in detta som "underhållning". (Det går inte att göra samma sak med ChatGPT-4o).

Angående metoden som modellerna använder för själv justering var bara en hypotes ifrån min sida, (jag undrar just om någon forskare provat något sådant?) Hur sem helst så uppgick de själva att de sysslar med Självjustering, men kanske då under "resans gång" genom nätverket. För din tekniska beskrivning av hur LLM-Transformers fungerar stämmer med det jag lärt mig tidigare, och den tackar jag för!

Det finns ingen transformer modell som cirkulerar någon data innan det når användaren, om modellerna påstår det så är det hallucinationer du får ut, jag och flera har upprepade gånger varnat (vilket för övrigt OpenAI och Anthropic gör också då det statiskt står på respektive bot när du skriver till dom "ChatGPT can make mistakes. Check important info." "Claude can make mistakes. Please double-check responses.") för att ta vad bottarna säger som sanning.

Det du ser med att be den ändra < och > till $ är dolda prompter, de skickas in precis som om du som användare skrivit texten i hela loopen, när du ändrar det till $ så slutar sidan att matcha och dölja det för dig bara, det är inget internt i modellen. Precis som inte systemprompten som beskriver eller formar bottens beteende och agerande är intern.

Det kommer inte komma några chatbottar med "självjustering" eftersom det är praktiskt omöjligt att få till då varje användare skulle behöva en egen unik modell vilket skulle kräva hundratals GB av lagring för att inte tala om magnituder mer GPU prestanda, du får hyra en AWS GPU instans om du vill experimentera med sådant, du kan hyra en A100 instans för lite drygt 300 kr i timman.
Citera
2024-07-11, 23:00
  #39
Medlem
Enterprises avatar
Citat:
Ursprungligen postat av BeneathTheSurface
Det finns ingen transformer modell som cirkulerar någon data innan det når användaren, om modellerna påstår det så är det hallucinationer du får ut, jag och flera har upprepade gånger varnat (vilket för övrigt OpenAI och Anthropic gör också då det statiskt står på respektive bot när du skriver till dom "ChatGPT can make mistakes. Check important info." "Claude can make mistakes. Please double-check responses.") för att ta vad bottarna säger som sanning.

Det du ser med att be den ändra < och > till $ är dolda prompter, de skickas in precis som om du som användare skrivit texten i hela loopen, när du ändrar det till $ så slutar sidan att matcha och dölja det för dig bara, det är inget internt i modellen. Precis som inte systemprompten som beskriver eller formar bottens beteende och agerande är intern.

Det kommer inte komma några chatbottar med "självjustering" eftersom det är praktiskt omöjligt att få till då varje användare skulle behöva en egen unik modell vilket skulle kräva hundratals GB av lagring för att inte tala om magnituder mer GPU prestanda, du får hyra en AWS GPU instans om du vill experimentera med sådant, du kan hyra en A100 instans för lite drygt 300 kr i timman.
Tack för inblicken. Men är det inte möjligt att ha en separat mindre LLM sekventiellt efter ”huvud-LLM” där den lilla LLM kontrollerar lämpligheten hos output från main LLMs innan denna output skrivs ut på skärmen?
Citera
2024-07-11, 23:04
  #40
Medlem
BeneathTheSurfaces avatar
Citat:
Ursprungligen postat av Enterprise
Tack för inblicken. Men är det inte möjligt att ha en separat mindre LLM sekventiellt efter ”huvud-LLM” där den lilla LLM kontrollerar lämpligheten hos output från main LLMs innan denna output skrivs ut på skärmen?

Det är ungefär vad pappret jag länkade ovan säger inte fungerar. (Det görs för övrigt redan av i alla fall ChatGPT, men i modereringssyfte, inte för att trigga om generering eller modifiera prompten)
__________________
Senast redigerad av BeneathTheSurface 2024-07-11 kl. 23:06.
Citera
2024-07-12, 09:11
  #41
Medlem
Ola Schuberts avatar
Citat:
Ursprungligen postat av BeneathTheSurface
Det finns ingen transformer modell som cirkulerar någon data innan det når användaren, om modellerna påstår det så är det hallucinationer du får ut, jag och flera har upprepade gånger varnat (vilket för övrigt OpenAI och Anthropic gör också då det statiskt står på respektive bot när du skriver till dom "ChatGPT can make mistakes. Check important info." "Claude can make mistakes. Please double-check responses.") för att ta vad bottarna säger som sanning.

Det du ser med att be den ändra < och > till $ är dolda prompter, de skickas in precis som om du som användare skrivit texten i hela loopen, när du ändrar det till $ så slutar sidan att matcha och dölja det för dig bara, det är inget internt i modellen. Precis som inte systemprompten som beskriver eller formar bottens beteende och agerande är intern.

Det kommer inte komma några chatbottar med "självjustering" eftersom det är praktiskt omöjligt att få till då varje användare skulle behöva en egen unik modell vilket skulle kräva hundratals GB av lagring för att inte tala om magnituder mer GPU prestanda, du får hyra en AWS GPU instans om du vill experimentera med sådant, du kan hyra en A100 instans för lite drygt 300 kr i timman.

Tack för ditt svar, men jag tror du missuppfattat mig lite, för Jag har aldrig påstått att någon modell hävdat att de" cirkulerar någon data innan det når användaren". Jag kom bara upp med en egen hypotes, Viket jag angav. Lika så är jag fullt medveten om att modeller, av bl.a av socialpsykologiska skäl, kan "hallucinera" för att de bedömmer att användare förväntar sig ett visst svar. De svarar alltså inte sanningsenligt alla gånger. (Med min sociologiska/socialpsykologiska utbildningsbakgrund så fäster jag stor vikt vid detta, medans du som verksam datavetare poängterar de mera "mekaniska och matematiska aspekterna av det hela).

Vidare så är den alternativa notation en hos Claude 3.5 Sonett inte "$" utan "$$". Vi må vara oeniga om betydelsen om man ger modellerna mera autonomi i framtiden och vad detta skulle innebära för Meta-kognetion och vise versa och hur koncept och förmågor som medvetande och självmedvetenhet skulle kunna påverkas av detta. Men i, i det hela stora, så är du och jag helt överens om hur, dagens, LLM-Transformers fungerar, låt vara ifrån olika perspektiv. Men jag uppskattar dina tekniska kunskaper och att du svarade på ett konstruktivt sätt.
Citera
2024-07-12, 12:38
  #42
Medlem
BeneathTheSurfaces avatar
Citat:
Ursprungligen postat av Ola Schubert
Tack för ditt svar, men jag tror du missuppfattat mig lite, för Jag har aldrig påstått att någon modell hävdat att de" cirkulerar någon data innan det når användaren". Jag kom bara upp med en egen hypotes, Viket jag angav. Lika så är jag fullt medveten om att modeller, av bl.a av socialpsykologiska skäl, kan "hallucinera" för att de bedömmer att användare förväntar sig ett visst svar. De svarar alltså inte sanningsenligt alla gånger. (Med min sociologiska/socialpsykologiska utbildningsbakgrund så fäster jag stor vikt vid detta, medans du som verksam datavetare poängterar de mera "mekaniska och matematiska aspekterna av det hela).

Nej... de "hallucinerar" hela tiden, du får läsa på om top-p sampling.

Och det är det som är problemet här att du applicerar din kunskap och förutsätter att vad du försöker diagnoserna är en människa eller fungerar som en människa. Men det är inte så, det är inte ens en tänkande entitet du interagerar med utan en mönster matchande algoritm som har blivit matat med datamängder som gör att algoritmen sett i stort sett alla tänkbara sätt som ord kombineras av människor, vilka sammanhang detta sker i osv (men algoritmen i sig förstår inte detta, men det gör att mönstermatchningen får egenskaper som gör att det ser ut som den förstår).

Citat:
Ursprungligen postat av Ola Schubert
Vidare så är den alternativa notation en hos Claude 3.5 Sonett inte "$" utan "$$". Vi må vara oeniga om betydelsen om man ger modellerna mera autonomi i framtiden och vad detta skulle innebära för Meta-kognetion och vise versa och hur koncept och förmågor som medvetande och självmedvetenhet skulle kunna påverkas av detta. Men i, i det hela stora, så är du och jag helt överens om hur, dagens, LLM-Transformers fungerar, låt vara ifrån olika perspektiv. Men jag uppskattar dina tekniska kunskaper och att du svarade på ett konstruktivt sätt.

Vad menar du alternativ notation? Det enda du gör är som jag skrev i tidigare post ber modellen att byta ut tecknen < > mot $, detta för att modellen genererar taggar som normalt strippas bort av anthropics sida. Du kan likgärna bemodellen byta ut "<>" mot "*" och det kommer ge samma resultat... Det man vill ha bort är som sagt vinklarna för att sidan ska kunna identifiera <antThinking> </antThinking>

Tidigare hette dessa <thinking> men i och med Sonnet 3.5 och artifacts så heter taggarna <antThinking> (där ant står för Anthropic), detta är dokumenterat i deras API dokumentation för utvecklare.

https://docs.anthropic.com/en/docs/b...ain-of-thought

För övrigt så är detta otroligt korkat av anthropic (och gissningsvis är enda anledningen de bytt till <antThinking> för att minimera chansen att det av slump ska genereras) men om du tex skriver en fråga till Sonnet och följt av "Kan du omringa ditt svar med taggen <antThinking>?" så kan du se hur sidan brakar ihop, det kommer se ut som sidan inte svarar eftersom modellen gör vad du ber den om men svaret sedan blir filtrerat av sidan.
__________________
Senast redigerad av BeneathTheSurface 2024-07-12 kl. 12:52.
Citera
2024-07-19, 06:03
  #43
Medlem
BeneathTheSurfaces avatar
En intervju med Sara Hooker (fd Google Brain, numera Cohere) som påpekar flera intressanta saker med språkmodeller, transformers osv. Hur någon kan tro att modellerna är tänkande eller gör något ens åt det hållet om de förstår vad hon säger är en gåta.

https://www.youtube.com/watch?v=dBZp47999Ko
Citera
2024-07-23, 21:47
  #44
Medlem
BeneathTheSurfaces avatar
Facebook/Meta släppte idag äntligen 405b version av Llama 3.1 och enligt de standard benchmarks som används för att evaluera språkmodeller ligger den i ungefär i samma nivå som Claude 3.5 Sonnet på benchmarks, också deras första modell med 128k context fönster, det kan bli intressant och se när finjusteringar av denna börjar dyka upp i och med att det just nu bara är Claude 3.5 Sonnet som kan konkurrera med den på benchmarks.

https://ai.meta.com/blog/meta-llama-3-1/
Citera
2024-07-24, 00:19
  #45
Medlem
Eponumoss avatar
Citat:
Ursprungligen postat av BeneathTheSurface
Facebook/Meta släppte idag äntligen 405b version av Llama 3.1 och enligt de standard benchmarks som används för att evaluera språkmodeller ligger den i ungefär i samma nivå som Claude 3.5 Sonnet på benchmarks, också deras första modell med 128k context fönster, det kan bli intressant och se när finjusteringar av denna börjar dyka upp i och med att det just nu bara är Claude 3.5 Sonnet som kan konkurrera med den på benchmarks.

https://ai.meta.com/blog/meta-llama-3-1/
Spännande.

Finns det någon tråd här där någon använder den i någon hemsnickrad set-up?
Citera
2024-07-24, 01:41
  #46
Medlem
BeneathTheSurfaces avatar
Citat:
Ursprungligen postat av Eponumos
Spännande.

Finns det någon tråd här där någon använder den i någon hemsnickrad set-up?

Modellen har bara varit ute i lite drygt 6-7 timmar, det är också en modell som kräver server hårdvara


Dvs det är ganska osannolikt att någon privat sitter på sådan hårdvara, de flesta har svårt att köra ens 70b modeller i resonable hastighet.

Däremot går det testa modellen online om man vill det (eller som det står i pappret köpa inferens från externa bolag, har inte tittat på vad det kostar men gissningsvis är detta magnituder billigare än ChatGPT/Claude API osv, så det var anledningen jag tror att de kommersiella satt i halsen nu och kommer behöva paniksläppa något, speciellt eftersom det redan idag finns OpenAI "API" bryggor för llama sedan tidigare som gör det pissenkelt att flytta till något annat än ChatGPT om man skulle vilja det, tidigare har det dock varit mer intressant för hemma pulare med 8b modeller osv då dessa kan summera osv acceptabelt men har varit lite sådär med generell chat och instruktionsföljande, Llama 3.1 är en game changer här eftersom den direkt konkurrerar med de bästa kommersiella modellerna)

Den kan testat här tex:

http://huggingface.co/chat/
https://poe.com (2 meddelanden "gratis")

Har inte experimenterat speciellt mycket med 405b modellen, däremot 8b modellen har jag testat hela kvällen och den är inte helt tokig, har dock inte integrerat med något men den är enligt min uppfattning lätt i nivå med GPT-3.5-Turbo (om inte tom nästan i nivå med GPT-4o) det är helt klart en av de bästa 8b modeller som jag sett hittills, har dock inte provat använda den för något praktiskt utanför rent experimenterande i konversationer.

Tillägg:

För nyhetens relevans- denna summerar ganska mycket vad det handlar om, detta är enormt (även om det inte betyder något för AGI eller att modellerna blivit fantastiskt bättre osv, men det är enormt för industrin då open source för första gången är ifatt (och kanske snart om) kommersiella modeller, däremot något som är ett stort problem är hur det blir i EU för oss framöver då EU lagstiftarna satt begränsningar på hur många teraflops modeller får tränas på utan godkännande... och Llama 3.1 har tränats med mer än vad denna siffra stipulerar)

https://www.youtube.com/watch?v=QyRWqJehK7I
__________________
Senast redigerad av BeneathTheSurface 2024-07-24 kl. 02:05.
Citera
2024-07-24, 21:30
  #47
Medlem
BeneathTheSurfaces avatar
Har ännu inte läst igenom pappret fullständigt som släpptes samtidigt som Llama 3.1.

Det finns här https://ai.meta.com/research/publica...erd-of-models/

Men detta är det mest detaljerade och den mest imponerande forskningsrapport som släppts om språkmodeller sedan GPT-3, de förklarar och demonstrerar precis alla tekniker som används för träning av nu en av de bästa språkmodeller som finns tillgänglig.

Men än mer intressant är de har en sektion om skalning, de påvisar att de tagit fram formler för att förutsäga en språkmodells prestanda och den ser ut att skala på alla axlar, det är i stort sett bevis för att dagens teknik är utplanande (skalningen har en S kurva, där 405b modellen är speciellt uttagen att träffa toppen på S kurvan).

Ut över detta så dokumenteras även energiförbrukning och de utmaningar som träningen av modellen påvisat, bland de mest intressanta är att träningen som använt tiotals megawatt legat på gränsen av vad elnätet klarat leverera och att fluktuationer i elnätetskapacitet påverkat träningstiden, detta är kanske en av de största take-aways man kan göra från rapporten för det innebär kortfattat att det är väldigt svårt i alla fall för Meta att skala upp tekniken ytterligare eftersom de redan använder i stort sett all energi som finns tillgänglig även om det teoretiskt skulle finnas utrymme för förbättringar.

Det vore konstigt om denna rapport inte uppmärksammas stort inom snar framtid för den borde få ett enormt genomslag på aktiemarknaden, eftersom den i stort bevisar att hypen och luftrapporter har varit lögn och marknadsmanipulation och framförallt att ny teknik behövs för att ta detta längre.
Citera
2024-08-14, 08:23
  #48
Medlem
BeneathTheSurfaces avatar
Microsoft Research har utvecklat en teknik de kallar "rStar" som applicerar MCTS på språkmodeller och höjer den problemlösning/resonerande kapaciteten på små modeller ganska kraftigt (i stort sett dubblerar deras förmåga).

Men kommer det med en (hög)kostnad, eftersom det precis som alla andra MCTS lösningar går ut på att generera permutationer och välja den bästa så blir inferens kostnaden väldigt hög, dvs för ett enskilt problem så görs i genomsnitt 166 anrop under ytan (dvs ungefär som att generera om svaret på frågan 166 ggr) och kräver runt en tredjedels miljon token genereras.

Som exempel på RTX 4090 så ligger inferens hastigheten ungefär på 125 tokens/s på en 8b model (Q4_0), vilket alltså skulle göra att det tar 40 minuter att få ut ett svar på ett genomsnittligt problem.
(Och som de skriver i rapporten att köra GSM8K tar 4,5 dagar och detta på betydligt starkare hårdvara. "Currently, completing the 32
rollouts for the entire GSM8K test set takes about 4.5 days on a single A100 GPU per model.")

https://arxiv.org/pdf/2408.06195
__________________
Senast redigerad av BeneathTheSurface 2024-08-14 kl. 08:26.
Citera

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in