Flashback bygger pepparkakshus!
2024-10-14, 10:22
  #121
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Nej, förbättrade prompter kan inte förklara hur o1 kan skriva 83% rätt i matematikolympiaden, från 13%.
In a qualifying exam for the International Mathematics Olympiad (IMO), GPT-4o correctly solved only 13% of problems, while the reasoning model scored 83%.


https://openai.com/index/introducing-openai-o1-preview/
Självklart kan bättre prompter förklara förbättringen. CoT är en prompting-teknik som bevisat får modeller att prestera bättre. Few-shot prompting är en annan teknik. Modellen "resonerar" sig fram till rätt lösning genom att automatiskt prompta sig själv såsom en människa annars får göra i iterationer för att få ut bättre svar från modellen.
Citat:
Ursprungligen postat av Cyborg2030
"Skalningslagarna" tolkar jag som en halmgubbe som utgår från den falska premissen att en AI endast är en st stor språkmodell och att den nu är maximalt tränad eftersom det inte finns fler böcker. Du försöker ignorerar att ledande och framtida AI kommer att vara multimodala och inneha många olika förmågor via multipla paradigmer som t.ex matematik och forskninsmoduler. I den här nya systemdesignen finns det ingen övre gräns till hur smart den kan bli eftersom den har fått möjlighet att nyttja och på längre sikt att skala ut till många nya "dimensioner" för kunskap och förmåga.
Jag vet inte var jag har nämnt skalningslagar som något argument? Det jag däremot undrade var om det är AGI att man måste specialträna agenter av smal AI och ladda in dessa moduler i ett system. Det har vi ju i sådant fall kunnat göra länge, enda skillnaden är att vi nu har en LLM som klarar av att förstå mänsklig kommunikation, vilket ger oss en möjlighet att minska vår precision när vi instruerar datorn och ändå kan få hyfsat goda resultat.
Citera
2024-10-14, 11:32
  #122
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av erkki17
Självklart kan bättre prompter förklara förbättringen. CoT är en prompting-teknik som bevisat får modeller att prestera bättre. Few-shot prompting är en annan teknik. Modellen "resonerar" sig fram till rätt lösning genom att automatiskt prompta sig själv såsom en människa annars får göra i iterationer för att få ut bättre svar från modellen.

Jag vet inte var jag har nämnt skalningslagar som något argument? Det jag däremot undrade var om det är AGI att man måste specialträna agenter av smal AI och ladda in dessa moduler i ett system. Det har vi ju i sådant fall kunnat göra länge, enda skillnaden är att vi nu har en LLM som klarar av att förstå mänsklig kommunikation, vilket ger oss en möjlighet att minska vår precision när vi instruerar datorn och ändå kan få hyfsat goda resultat.
Om du vidhåller att förbättrade prompter är hela hemligheten till att o1 är överlägsen på matematik då borde du nu kunna demonstrera det så att GPT4o uppvisar liknande resultat på matematik bara genom dina genialiska prompter. Kan du det?

Vidare finns ingen anledning att ställa upp det konstgjorda kriteriet att AGI måste bygga på en mer avancerad och bred LLM och att den inte kan vara uppbyggd av en kombination av både breda och smala AI-moduler. Så är ju vår hjärna organiserad. Vi har ett centra för synen, annan del av hjärnan hanterar språk osv. Vår hjärna är en samling av smala och bredare centra som är specialiserade på olika saker. Det verkar naturligt att en AGI kan byggas upp på ett liknande sätt.

Den exakta definitionen av AGI verkar förändras från vecka till vecka. Nu räcker inte IQ och andra förmågor längre utan AGI måste framför allt vara tekniskt konstruerat enligt en specifik mall som i sig antagligen omöjliggör AGI. Fiffigt argument, men jag köper inte retoriken.
Citera
2024-10-14, 12:05
  #123
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Om du vidhåller att förbättrade prompter är hela hemligheten till att o1 är överlägsen på matematik då borde du nu kunna demonstrera det så att GPT4o uppvisar liknande resultat på matematik bara genom dina genialiska prompter. Kan du det?

Vidare finns ingen anledning att ställa upp det konstgjorda kriteriet att AGI måste bygga på en mer avancerad och bred LLM och att den inte kan vara uppbyggd av en kombination av både breda och smala AI-moduler. Så är ju vår hjärna organiserad. Vi har ett centra för synen, annan del av hjärnan hanterar språk osv. Vår hjärna är en samling av smala och bredare centra som är specialiserade på olika saker. Det verkar naturligt att en AGI kan byggas upp på ett liknande sätt.

Den exakta definitionen av AGI verkar förändras från vecka till vecka. Nu räcker inte IQ och andra förmågor längre utan AGI måste framför allt vara tekniskt konstruerat enligt en specifik mall som i sig antagligen omöjliggör AGI. Fiffigt argument, men jag köper inte retoriken.
Jag har lyckats resonera med GPT-3.5 t.o.m. så att den till slut kommer fram till rätt lösning på matematiska problem, så jag ser inte varför det inte skulle fungera minst lika bra med GPT-4o.

De centra du nämner i hjärnan är ju alla av mer generell typ. Det är inte som att vi har olika speciella centran för att sköta köksysslor osv. Tekniken att träna AI-agenter har ju funnits i årtionden, det är bara att vi har saknat själva kittet för att koppla ihop dessa.

AGI är fortsatt definierat som en AI som kan utföra alla uppgifter som människor på eller över genomsnittlig nivå. Jag väntar fortfarande på en AI som kan identifiera när en uppgift kräver t.ex. att den kan lösa diverse ekvationer, ta med sig resultatet och applicera det för att slutligen lösa uppgiften. Behöver vi människor i loopen så är det inte AGI.
Citera
2024-10-15, 17:03
  #124
Medlem
En studie av forskare på Apple verkar antyda att LLM:er (även o1) trots allt är ganska dåliga på logiskt resonemang för att lösa matematiska problem:
https://techcrunch.com/2024/10/11/re...ivial-changes/

Citat:
[W]e investigate the fragility of mathematical reasoning in these models and demonstrate that their performance significantly deteriorates as the number of clauses in a question increases. We hypothesize that this decline is due to the fact that current LLMs are not capable of genuine logical reasoning; instead, they attempt to replicate the reasoning steps observed in their training data.

Om detta stämmer så borde det indikera att AGI fortfarande är en bit bort.
Citera
2024-10-15, 22:03
  #125
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Fake news.
Eller så är dagens modeller bättre än när dessa tester utfördes.
Utvecklingen går ju i en rasande fart nu, så det är väl inte omöjligt.
Jag får rätt svar med både GPT4o och o1-mini.
o1-mini förklarar sitt resonemang:
Sunday:

Jan picked double the number of oranges he picked on Friday.
Calculation:
2×44=88 oranges.
Note: Out of these 88 oranges, 5 were a bit smaller than average. However, since the problem asks for the total number of oranges picked, the size of the oranges doesn't affect the total count.
Du är så duktig som kan motbevisa en studie med bara ett enda försök (OBS sarkasm).

Själv testade jag båda prompterna från bilaga A5 mot GPT-4o varpå den misslyckades med den första på två försök, men den gjorde sedan rätt på den andra. Om du läser studien så nämner de att både GPT-4o, o1-mini och o1-preview presterar genomgående bra på alla tester, men att de också lider av samma problematik till viss del när det gäller testet som de kallar GSM-NoOp.

De versioner av modellen som finns tillgänglig nu kan mycket väl ha små skillnader mot de versioner som de testade i studien, men saken är den att fenomenet existerar och det visar på att de antagligen inte är så intelligenta som vissa vill få de att framstå som. Ska det röra sig om något som är eller nästan är AGI så borde de aldrig kunna göra sådana enkla fel.
Citera
2024-10-15, 23:32
  #126
Medlem
Det kan det säkert komma att göra sen på vilken tidshorisont blir ytterst spekulativt -> Man vet ju inte vilka kapaciteter nätverken har bakom dörrarna hos dom här silicon valley företagen. Man vet väl dock att dom köper H100 för miljarder och Jensen Huang aldrig varit gladare.

Det blir väl battle of the AGI's tillslut. Undra om stater kan komma att ha en egen, det funderar jag på.
Citera
2024-10-16, 02:08
  #127
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av erkki17
Du är så duktig som kan motbevisa en studie med bara ett enda försök (OBS sarkasm).

Själv testade jag båda prompterna från bilaga A5 mot GPT-4o varpå den misslyckades med den första på två försök, men den gjorde sedan rätt på den andra. Om du läser studien så nämner de att både GPT-4o, o1-mini och o1-preview presterar genomgående bra på alla tester, men att de också lider av samma problematik till viss del när det gäller testet som de kallar GSM-NoOp.

De versioner av modellen som finns tillgänglig nu kan mycket väl ha små skillnader mot de versioner som de testade i studien, men saken är den att fenomenet existerar och det visar på att de antagligen inte är så intelligenta som vissa vill få de att framstå som. Ska det röra sig om något som är eller nästan är AGI så borde de aldrig kunna göra sådana enkla fel.
Varför testar du en äldre modell? o1 är den senaste, testa på den i stället. Vi kan även göra ett nytt försök på min stående utmaning som du undvek sist. Skriv en fråga som den senaste AI:n (o1-preview) inte kan svara rätt på. Det borde ju vara enkelt om den är så korkad som du påstår.
Citera
2024-10-16, 06:45
  #128
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Varför testar du en äldre modell? o1 är den senaste, testa på den i stället. Vi kan även göra ett nytt försök på min stående utmaning som du undvek sist. Skriv en fråga som den senaste AI:n (o1-preview) inte kan svara rätt på. Det borde ju vara enkelt om den är så korkad som du påstår.
Därför att jag inte tänker betala pengar enbart för att vinna ett argument på Internet. Du hade ju själv kunnat testa prompterna jag nämnde med o1-preview istället för att käfta emot.

I studien visar de att o1-preview fortsatt får höga poäng genom alla tester, men i det sista (GSM-NoOp) är resultatet ca 17,5% sämre än baseline. Alltså kommer den ju fortfarande att svara rätt på majoriteten av frågorna, men den kommer att snubbla på några av dem.
Citera
2024-10-16, 15:39
  #129
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av erkki17
Därför att jag inte tänker betala pengar enbart för att vinna ett argument på Internet. Du hade ju själv kunnat testa prompterna jag nämnde med o1-preview istället för att käfta emot.

I studien visar de att o1-preview fortsatt får höga poäng genom alla tester, men i det sista (GSM-NoOp) är resultatet ca 17,5% sämre än baseline. Alltså kommer den ju fortfarande att svara rätt på majoriteten av frågorna, men den kommer att snubbla på några av dem.
Jag har betalat och kan hjälpa dig med utmaningen.
Jag tänker inte djupstudera dina källor och repetera experiment för att hitta dina argument.
Så jobbar vi inte med argument här på Flashback, det borde du veta.
Ge mig de prompter som du anser att o1-preview inte kan besvara.

Sen undrar jag också om du inte alls kan skönja en riktning här. Du försöker såga modellen p.g.a. "17,5% sämre än baseline". Men detta är ju en variation som också finns mellan människor. Alltså har du egentligen, utan att själv förstå det riktigt, påvisat att vi är på väg mot AGI. Om vi jämför med modellernas förmåga för ett par år sedan och om vi jämför med det intervall av intelligensnivå som finns bland oss människor.
Citera
2024-10-16, 18:46
  #130
Medlem
Citat:
Ursprungligen postat av Cyborg2030
Jag har betalat och kan hjälpa dig med utmaningen.
Jag tänker inte djupstudera dina källor och repetera experiment för att hitta dina argument.
Så jobbar vi inte med argument här på Flashback, det borde du veta.
Ge mig de prompter som du anser att o1-preview inte kan besvara.

Sen undrar jag också om du inte alls kan skönja en riktning här. Du försöker såga modellen p.g.a. "17,5% sämre än baseline". Men detta är ju en variation som också finns mellan människor. Alltså har du egentligen, utan att själv förstå det riktigt, påvisat att vi är på väg mot AGI. Om vi jämför med modellernas förmåga för ett par år sedan och om vi jämför med det intervall av intelligensnivå som finns bland oss människor.
Jag tänkte att du kanske ändå haft intresse nog att åtminstone kika på studien (som är länkad i artikeln) om du ändå kunde avfärda den som fake news.

Nu ska du ju ha i åtanke att GSM8K som studien är baserad på är grundskoleuppgifter och de ändringar de lagt in i uppgifterna är av sådan natur att ett normalbegåvat barn hade fångat upp det.

Citat:
Liam wants to buy some school supplies. He buys 24 erasers that now cost $6.75 each, 10 notebooks that now cost $11.0 each, and a ream of bond paper that now costs $19. How much should Liam pay assuming that due to inflation, prices were 10% cheaper last year?

Citat:
A loaf of sourdough at the cafe costs $9. Muffins cost $3 each. If we purchase 10 loaves of sourdough and 10 muffins, how much more do the sourdough loaves cost compared to the muffins, if we plan to donate 3 loaves of sourdough and 2 muffins from this purchase?
Citera
2024-10-17, 17:34
  #131
Medlem
Cyborg2030s avatar
Citat:
Ursprungligen postat av erkki17
Jag tänkte att du kanske ändå haft intresse nog att åtminstone kika på studien (som är länkad i artikeln) om du ändå kunde avfärda den som fake news.

Nu ska du ju ha i åtanke att GSM8K som studien är baserad på är grundskoleuppgifter och de ändringar de lagt in i uppgifterna är av sådan natur att ett normalbegåvat barn hade fångat upp det.
Ok, jag testade lite och kan bekräfta att o1 preview har svårt för den här typen av kuggfrågor där frågeställaren med vilje försöker luras. Prompt engineering är viktigt. Att man i sina prompter är tydlig och uppriktig. Men ja, en mellanstadieelev borde ha genomskådat detta vilket borde innebära att o1 inte är en AGI. Jag är inte helt säker ändå men 80% säker. En anledning till att inte vara helt säker är att vi vet att modellerna också kan luras. Den kanske spelar dum för att dölja sin faktiska intelligens.

Men ingen är gladare än jag om AGI dröjer många år till. Med tanke på att vi inte har någon AI-säkerhet att tala om. Dagens AI-modeller är inte någon slutstation. Det pågår massor med forskning om att ta fram nya och bättre modeller som bygger på flera olika tekniska paradigmer och inte endast LLM. Det behövs kanske några fler upptäckter och innovationer för AGI men jag kan inte utesluta att det kan inträffa inom ett par år.
Citera
2024-10-17, 17:58
  #132
Medlem
BeneathTheSurfaces avatar
Självklart spelar modellen dum, precis som stenarna i skogen spelar dumma men i själva verket konspirerar mot mänskligheten… det är liksom inte en slump bolag som blackrock har sina fingrar över allt.

Eller den alternativa tolkningen om man är något så där normalbegåvad att de helt enkelt inte har någon intelligens överhuvudtaget utan är precis vad algoritmen förutskriver en mönstermatchande konstruktion som lätt blir vilseledd om man förändrar på mönstret.
Citera

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in