OpenAI: Bedömning av ML agenter för ingenjörsuppgifter

2024-10-11, 04:08 #1

Medlem

Reg: Sep 2003

Inlägg: 25 444

Jag har inte kompetens att att bedöma betydelsen av sådana mätningar. Men tycker det kan vara befogat att starta en ny tråd om detta, om de med kompetens här bedömmer det som viktigt. För då vore det ju synd om detta försvann "i allt brus" här:

https://arxiv.org/abs/2410.07095

Vilken betydelse har detta för AI-utvecklingen?

Kommer AI-agenter att. Kunna fungera som kompetenta ingenjörer?

(Gör moderator en annan bedömning än mig, så går det bra att samanfoga till en redan befintlig tråd.)

Citera

2024-10-11, 07:29 #2

Moderator

Reg: Jun 2002

Inlägg: 5 696

Citat:

Ursprungligen postat av Ola Schubert

Jag har inte kompetens att att bedöma betydelsen av sådana mätningar. Men tycker det kan vara befogat att starta en ny tråd om detta, om de med kompetens här bedömmer det som viktigt. För då vore det ju synd om detta försvann "i allt brus" här:

https://arxiv.org/abs/2410.07095

Vilken betydelse har detta för AI-utvecklingen?

Kommer AI-agenter att. Kunna fungera som kompetenta ingenjörer?

(Gör moderator en annan bedömning än mig, så går det bra att samanfoga till en redan befintlig tråd.)

Ja, absolut. Vi använder LLM för att träna LLM iterativt och validerar det som kommer ut för att se om vi kan träna om modellen för saker som tar lång tid att göra manuellt.

Citera

2024-10-11, 08:11 #3

Medlem

Reg: Dec 2008

Inlägg: 1 278

Det verkar vara en bit kvar tills modellerna har någon riktig form av autonomi. De klarar av att utföra uppgifterna med ganska goda resultat, men det verkar fortfarande krävas väldigt mycket handpåläggning för att ens komma till en punkt där modellerna kan ta vid och utföra arbetet. Sedan är det som alltid så att ju fler steg som ingår desto större är risken att något misslyckas som den inte lyckas återhämta sig ifrån.

Huruvida resultaten är rättvisande återstår att se. Som de själva skriver i studien har modellerna med största sannolikhet tränats på både uppgifterna och alla lösningar som mänskliga ML-ingenjörer har lämnat in. Det riktiga testet blir när de får testa att lösa uppgifter som inte har funnits med i träningsdata.

Jag har tidigare sagt att agenter lär krävas för att en AI (eller mer korrekt, ett AI-system) ska kunna utföra mer komplexa uppgifter på (eller över) mänsklig nivå. Frågan är bara hur effektivt det kan bli om man behöver träna agenter med specialkompetens för alla olika möjliga uppgifter som ska utföras.

Citera

2024-10-14, 07:50 #4

Moderator

Reg: Jun 2002

Inlägg: 5 696

Citat:

Ursprungligen postat av erkki17

Det verkar vara en bit kvar tills modellerna har någon riktig form av autonomi. De klarar av att utföra uppgifterna med ganska goda resultat, men det verkar fortfarande krävas väldigt mycket handpåläggning för att ens komma till en punkt där modellerna kan ta vid och utföra arbetet. Sedan är det som alltid så att ju fler steg som ingår desto större är risken att något misslyckas som den inte lyckas återhämta sig ifrån.

Huruvida resultaten är rättvisande återstår att se. Som de själva skriver i studien har modellerna med största sannolikhet tränats på både uppgifterna och alla lösningar som mänskliga ML-ingenjörer har lämnat in. Det riktiga testet blir när de får testa att lösa uppgifter som inte har funnits med i träningsdata.

Jag har tidigare sagt att agenter lär krävas för att en AI (eller mer korrekt, ett AI-system) ska kunna utföra mer komplexa uppgifter på (eller över) mänsklig nivå. Frågan är bara hur effektivt det kan bli om man behöver träna agenter med specialkompetens för alla olika möjliga uppgifter som ska utföras.

Under en ganska lång tid framåt kommer man behöva träna sina modeller om dom skall utföra ett specifikt uppdrag. Jag ser det inte konstigare än att man själv utbildar sig inom ett snävt område för att få spetskompetens. ChatGPT är bra på generella uppgifter men rätt dålig med standardinställningarna att t.ex. skriva juridiska utlåtande enl. svensk lag. Om man har nytta av detta så kommer det finnas företag som säljer tränade modeller för specifika ändamål så därför tror jag att vi kommer se mycket mer av detta i framtiden.

Sedan kanske inte AI kommer att kunna träna med AI-agenter effektivt just nu då risken är för stor att man förgiftar modellerna med felaktig data.

Jag tänker t.ex. hur enormt populärt det är att använda AI för bilder och det måste vara ett extremt stort dilemma att träna nästa generations modeller om dom hämtar material från Internet då man högst troligt inte vill träna dom på bilder från sig själv eller andra modeller utan endast "riktiga" bilder.

Citera

OpenAI: Bedömning av ML agenter för ingenjörsuppgifter

Skapa ett konto eller logga in för att kommentera

Skapa ett konto

Logga in