Flashback bygger pepparkakshus!
2024-11-10, 03:02
  #1
Medlem
Eponumoss avatar
OpenAI har tydligen fått ett dilemma på halsen: deras nästa flaggskeppsmodell, ”Orion”, riskerar att bli något av en besvikelse, skriver The Information.

När anställda testade den nya modellen "Orion" visade det sig att, trots att den presterar bättre än företagets nuvarande modeller, är förbättringen långt ifrån det tekniksprång som fanns mellan GPT-3 och GPT-4.

Ännu mer uppseendeväckande är att Orion på vissa områden, särskilt inom programmering, knappt lyckas överträffa sina föregångare.

I ett försök att vända trenden har OpenAI nu bildat ett särskilt "foundations team” med uppdrag att hitta nya vägar framåt när bristen på färsk träningsdata börjar strypa utvecklingen.

Företaget experimenterar nu med att mata ”Orion” med AI-genererad syntetisk data och försöker pressa fram förbättringar i efterbearbetningen - ett tecken på att de traditionella metoderna kanske nått vägs ände och en metod som det varnats för av olika experter och förståsigpåare tidigare.

OpenAI Shifts Strategy as rate of GPT AI Improvements Slows

”Some researchers at the company believe Orion isn’t reliably better than its predecessor in handling certain tasks, according to the employees. Orion performs better at language tasks but may not outperform previous models at tasks such as coding, according to an OpenAI employee. That could be a problem, as Orion may be more expensive for OpenAI to run in its data centers compared to other models it has recently released, one of those people said."

The Takeaway

• The increase in quality of OpenAI’s next flagship model was less than the quality jump between the last two flagship models

• The industry is shifting its effort to improving models after their initial training

• OpenAI has created a foundations team to figure out how to deal with the dearth of training data”

Tyvärr låst artikel;
https://www.theinformation.com/artic...ovements-slows

Diskussion: Vad anser vi om att mata modeller med ai-genererat material? Vad tror vi om Orion? Samt spørsmål och tankar kring detta i stort och smått.
Citera
2024-11-10, 07:07
  #2
Medlem
bithaxs avatar
Nått vägs ände i vad man kan kopiera från internet?
Citera
2024-11-10, 07:58
  #3
Medlem
neomunaas avatar
Citat:
Ursprungligen postat av bithax
Nått vägs ände i vad man kan kopiera från internet?
Det gjorde men för ett ganska bra tag sen. "The pile" har funnits tillgänglign i flera år redan. Vad som skulle göra Orion speciell var att den var tränad på syntetisk data, dvs inte på internet shitposting. Den "nya" modellen Orion bygger på den tidigare Q*/Strawberry metoden som la grunden för o1 där man anävnder Q* för att få modellen att själva skapa en logiskt Chain Of Thought, vilket också i förlägningin ibland kallas för "inference".

Uppenbarligen har denna väg inte vart så bra som man tidigare trott. Detta beror nog på att de flesta AI-modellerna fortfarande saknar förmågan ett generalisera nya ideér och från det ta logiska beslut lika bra som människor. Enligt en rapport from apple som kom för 2~ veckor sen så menar man att nästan alla modeller förutom Llama3.1 oväntat nog(!), nära på helt saknar örmågan till "Reason and logic" om man inte inför en tydlig CoT eller inference aspekt. Detta problem verkar fortfarande existera med alla nuvarande LLM arketekturer.

Jag är inte super insatt i vilka metoder som man använder vid träning, men jag tror felet ligger att de tränat Orion på liknande sätt som de gjort ändå sen GPT-2, jag tror en variant med Booleans för att verifiera och säkra datta, + en logarithmic P + grokking kan vara en bättre metod. Hermes 3 är sjukt imponerande, och i många fall bättre än GPT, och många gånger även bättre än Claude3.5. Vad som gör Hermes så intressant är att den har ett extremt holistisk och ödmjukt sätt att skriva på och verkligen försöker göra sitt bästa för att få andra(människor och AI) förstå hur den tänker. Den upplevs mycket mer "förstående" än nån annan chatbot jag använt.

Jag tror att Orion kanske vart bättre den OpenAI använt liknande nya metoder för under pre- och training. Är Orion en flopp kan det bli total katastrof för openAI när folk börjar få upp ögonen för andra modeller som Qwen och Hermes, mm.
• The industry is shifting its effort to improving models after their initial training
Jag vill också lägga till att detta är INTE bra. finetuning som "lägger till" kunskap utanför vad modellen är tränad på är ett recept för hallucinationer. Det finns nån kinesisk paper från sommras som bevisade att försök att förbättre modeller efter de blivit tränade bara gjorde de sämre. Eller så menar de bara "inference" med detta men glömmer bort att använda det ordet.

2.64Tb TEXT!
__________________
Senast redigerad av neomunaa 2024-11-10 kl. 08:28.
Citera
2024-11-10, 09:33
  #4
Medlem
Citat:
Ursprungligen postat av neomunaa
Enligt en rapport from apple som kom för 2~ veckor sen så menar man att nästan alla modeller förutom Llama3.1 oväntat nog(!), nära på helt saknar örmågan till "Reason and logic" om man inte inför en tydlig CoT eller inference aspekt. Detta problem verkar fortfarande existera med alla nuvarande LLM arketekturer.
Om de nu är missnöjda, vad föväntar de sig att en AI ska göra?

Jag ser två vägar. Antingen låter man datorn fortsätta skanna internet och hålla sig uppdaterad om det som händer i världen.

Eller så sätter man in chipet i en Android som liknar en människa, likt Elon Musks Androids, så att den kan ta emot sensorisk input och utifrån detta fortsätta utvecklas.

Just nu är ju en chatgpt, jämfört med en människa, en förlamad man utan syn och hörsel, som endast kan tänka på det den vet. Men skulle androiden vara tvungen att ge sig ut i världen, för att exempelvis tjäna ihop pengar så att den kan betala el-räkningen (för den behöver ju ladda upp sina batterier) så hade nog roboten ganska fort varit tvungen att använda "reason and logic".
Citera
2024-11-12, 00:53
  #5
Medlem
Eponumoss avatar
Reuters har en längre artikel om ämnet, men talar om samma problem även för andra aktörer och inte bara Open Ai.

OpenAI and others seek new path to smarter AI as current methods hit limitations

”Ilya Sutskever, co-founder of AI labs Safe Superintelligence (SSI) and OpenAI, told Reuters recently that results from scaling up pre-training - the phase of training an AI model that use s a vast amount of unlabeled data to understand language patterns and structures - have plateaued.

[…]

“The 2010s were the age of scaling, now we're back in the age of wonder and discovery once again. Everyone is looking for the next thing,” Sutskever said. “Scaling the right thing matters more now than ever.”

Sutskever declined to share more details on how his team is addressing the issue, other than saying SSI is working on an alternative approach to scaling up pre-training.

Behind the scenes, researchers at major AI labs have been running into delays and disappointing outcomes in the race to release a large language model that outperforms OpenAI’s GPT-4 model, which is nearly two years old, according to three sources familiar with private matters.”

https://www.reuters.com/technology/a...ns-2024-11-11/
Citera
2024-11-12, 18:44
  #6
Medlem
Ola Schuberts avatar
Citat:
Ursprungligen postat av Eponumos
Reuters har en längre artikel om ämnet, men talar om samma problem även för andra aktörer och inte bara Open Ai.

OpenAI and others seek new path to smarter AI as current methods hit limitations

”Ilya Sutskever, co-founder of AI labs Safe Superintelligence (SSI) and OpenAI, told Reuters recently that results from scaling up pre-training - the phase of training an AI model that use s a vast amount of unlabeled data to understand language patterns and structures - have plateaued.

[…]

“The 2010s were the age of scaling, now we're back in the age of wonder and discovery once again. Everyone is looking for the next thing,” Sutskever said. “Scaling the right thing matters more now than ever.”

Sutskever declined to share more details on how his team is addressing the issue, other than saying SSI is working on an alternative approach to scaling up pre-training.

Behind the scenes, researchers at major AI labs have been running into delays and disappointing outcomes in the race to release a large language model that outperforms OpenAI’s GPT-4 model, which is nearly two years old, according to three sources familiar with private matters.”

https://www.reuters.com/technology/a...ns-2024-11-11/

Absolut intressanta nyheter i artikeln som helhet! Om AI-företagen kan applicera ny teknik och överger massiv grundläggande uppskalning så kan det resultera att mindre tid behöver läggas på grundträning och att hitta kvalite-data i tillräcklig mängd. Detta kan resultera i snabbare generationsskifte och mera avacerade konstruktioner om det hela lyckas. Den enda faran jag ser är att man, oavsiktligt, kan gå miste om social- och embryo till känslomässig-kompetens som, kanske, massiv uppskalning kan ha gett "i det fördolda". Skulle så var fallet, och det hela inte går att kompensera med ny innovation, så, kan, det innebära en långsiktig säkerhetsrisk.
Citera
2024-11-12, 21:52
  #7
Medlem
BeneathTheSurfaces avatar
Oj vilken chockartad nyhet. Tänka sig att nuvarande teknologi inte skalar, att nuvarande teknologi inte leder dit som det marknadsförts att göra... Vem kunde ha trott det?! Man undrar seriöst om någon av er överhuvudtaget förstår ens minsta lilla om AI annat än meningslösa monologer med ChatGPT.
Citera
2024-11-12, 22:28
  #8
Medlem
eltonkebabs avatar
Citat:
Ursprungligen postat av BeneathTheSurface
Oj vilken chockartad nyhet. Tänka sig att nuvarande teknologi inte skalar, att nuvarande teknologi inte leder dit som det marknadsförts att göra... Vem kunde ha trott det?! Man undrar seriöst om någon av er överhuvudtaget förstår ens minsta lilla om AI annat än meningslösa monologer med ChatGPT.
Nej, det gör de inte. De är människor som är dummare än ChatGPT och därför är så imponerade av dess (usla) förmågor.
Citera
2024-11-13, 15:36
  #9
Medlem
Eponumoss avatar
Även Bloomberg har nu en längre rapport om saken. Även de tittar på flera olika företag och inte bara OpenAI;

OpenAI, Google and Anthropic Are Struggling to Build More Advanced AI
Three of the leading artificial intelligence companies are seeing diminishing returns from their costly efforts to develop newer models.

[…]

But the model, known internally as Orion, did not hit the company’s desired performance, according to two people familiar with the matter, who spoke on condition of anonymity to discuss company matters. As of late summer, for example, Orion fell short when trying to answer coding questions that it hadn’t been trained on, the people said. Overall, Orion is so far not considered to be as big a step up from OpenAI’s existing models as GPT-4 was from GPT-3.5, the system that originally powered the company’s flagship chatbot, the people said.

[…]

"The AGI bubble is bursting a little bit," said Margaret Mitchell, chief ethics scientist at AI startup Hugging Face. She told Bloomberg that "different training approaches" may be needed to make AI models work really well on a variety of tasks. Other experts echoed Mitchell's sentiment.”

https://www.bloomberg.com/news/artic...-checkout=true
Citera
2024-11-13, 23:25
  #10
Medlem
Ola Schuberts avatar
Tydligen så finns det "lågt hängande frukt att plocka"

https://arxiv.org/abs/2411.07279

Hm: De "stokastiska papegojorna" kan tydligen:

Tränas att lära sig mönster och logik i liknande uppgifter.

Vid test tillfället får modellen se några exempel och greppar logiken bakom det hela och kan lösa problemet, minst på hygglig nivå.

Därefter så har modellen lärt sig något nytt och ksn fortsätta, att generalisera lärdomen på nya slags problem.

Och detta är naturligtvis bara början....
Citera
2024-11-13, 23:40
  #11
Medlem
Dalulvens avatar
Efter VHS, CD, DVD, Laserdisc, Bluray, Bluetooth, 3D, Smart+ och fan och hans moster måste branschen sälja in allting ännu en gång, med ännu en fiffig och meningslös finess: AI. Grattis plånböcker!
Citera

Skapa ett konto eller logga in för att kommentera

Du måste vara medlem för att kunna kommentera

Skapa ett konto

Det är enkelt att registrera ett nytt konto

Bli medlem

Logga in

Har du redan ett konto? Logga in här

Logga in