Ny arkitektur från Google: Titans

2025-01-16, 08:16 #1

Medlem

Reg: Feb 2023

Inlägg: 1 614

Google släppte igår kväll en ny forskningsrapport på en arkitektur som, om jag förstått det rätt, kan ersätta transformerarkitekturen som ligger till grund för ChatGPT och mycket annan AI vi ser idag.
Titans kallas den.

https://arxiv.org/abs/2501.00663

Jag ska inte låtsas som att jag är väl insatt i detta, men som jag uppfattat det inbegriper det:

- Modellen använder utöver tensoroperationer även matrismultiplikation vid träning, som är väl optimerad på dagens hårdvara. Vissa delar har visat sig kunna använda matmul istället för tensop, som då blir mer effektivt.

- Modellen har en ny minnesmodul som tillåts lära sig ny data och även glömma vid test-time, alltså medans den körs som när vi vanligen använder t.ex. chatbottar. Detta instämmer modellens parametrar medans den körs, till skillnad från transformer som mer använder kontexten för den enskilda körningen.

- Optimeringar inom träningen (Momentum) som bidrar till att mindre fel inom enskilda lager kan strykas över, samt viktminskning som ska hindra att träningsdatan får för stora parametrar.

- Uppdelning av träningsdatan i chunks, en viktig del för Momentumfunktionen, men som även förbättrar minneshantering.

- Parallell associativ scan. I grova drag parallellisering av Momentumfunktionen, vilket är kung när det ska köras på tusentals beräkningksort samtidigt.

- Kraftigt ökad prestanda i kontextlängder på över 2 miljoner tokens.

Behöver lusläsa den här mer för att förstå den bättre, men det känns som att detta kan bidra till rätt rejäla och snabba framsteg framöver inom AI-sfären.
Vi är nog långt ifrån en sprucken bubbla.

__________________
Senast redigerad av Kottkompott 2025-01-16 kl. 08:23.

Citera

2025-01-16, 11:28 #2

Medlem

Reg: Apr 2023

Inlägg: 240

meta släppte nyligen lite spekulativa papper om LCM (Large Concept Models). koncept tokens typ men istället handlar det transformers. Det här låter lite som det, men betydligt mer tekniskt - samt en annan vektor med fokus på att revidera minnet helt så den kan lära sig nya saker efter träning. Måste vara detta google sysslat med på senare tid, är väl den största updaten sen Veo2? Sjukt hur fort det går med ny R&D.

__________________
Senast redigerad av neomunaa 2025-01-16 kl. 11:33.

Citera

2025-01-16, 12:36 #3

Medlem

Reg: Aug 2023

Inlägg: 1 664

Citat:

Ursprungligen postat av Kottkompott

- Modellen använder utöver tensoroperationer även matrismultiplikation vid träning, som är väl optimerad på dagens hårdvara. Vissa delar har visat sig kunna använda matmul istället för tensop, som då blir mer effektivt.

matrismultiplikation är en tensor operation... det är precis vad "tensor cores" gör, en tensor är bara namnet på en arbiträr matematisk volym/dimension av värden. en enskild variabel är en tensor, en array eller en matris av värden är en tensor men med en annan given dimension.

Citera

2025-01-16, 13:23 #4

Medlem

Reg: Feb 2023

Inlägg: 1 614

Citat:

Ursprungligen postat av BeneathTheSurface

matrismultiplikation är en tensor operation... det är precis vad "tensor cores" gör, en tensor är bara namnet på en arbiträr matematisk volym/dimension av värden. en enskild variabel är en tensor, en array eller en matris av värden är en tensor men med en annan given dimension.

Kanske en högre proportion av träningen består av matmul isåfall?

Insåg nu också att rapporten hade två veckor på nacken, så jag var lite sen på bollen.

__________________
Senast redigerad av Kottkompott 2025-01-16 kl. 13:39.

Citera

2025-01-16, 13:26 #5

Medlem

Reg: Mar 2023

Inlägg: 2 314

Citat:

Ursprungligen postat av Kottkompott

Google släppte igår kväll en ny forskningsrapport på en arkitektur som, om jag förstått det rätt, kan ersätta transformerarkitekturen som ligger till grund för ChatGPT och mycket annan AI vi ser idag.
Titans kallas den.

Jo, fast exakt så här sa de när telefaxen ersatte telegrafen. Det är en "ny arkitektur"!
Det här med "ny arkitektur" är inget nytt.
Människan har uppfunnit nya apparater i hundratals år.
Email är Gutenbergs tryckpress egentligen. Bara lite snabbare.
Man har bara sminkat grisen i en ny färg

Citera

2025-01-16, 13:51 #6

Medlem

Reg: Aug 2023

Inlägg: 1 664

Citat:

Ursprungligen postat av Kottkompott

Kanske en högre proportion av träningen består av matmul isåfall?

Insåg nu också att rapporten hade två veckor på nacken, så jag var lite sen på bollen.

Vad då en högre proportion? matmul ÄR en tensor operation, din inledande kommentar att man använder matmul i stället för tensor operationer är fel. Snarlikt att säga att i stället för att använda matematik så har ekonomer börjat addera mera.

Citera

2025-01-16, 14:49 #7

Medlem

Reg: Feb 2023

Inlägg: 1 614

Citat:

Ursprungligen postat av BeneathTheSurface

Vad då en högre proportion? matmul ÄR en tensor operation, din inledande kommentar att man använder matmul i stället för tensor operationer är fel. Snarlikt att säga att i stället för att använda matematik så har ekonomer börjat addera mera.

Sorry, du har rätt.
Jo, matmul är en tensoroperation, men det finns förstås fler sådana. Men matmul är väl rätt väloptimerad bland dessa?
Så då är det rätt bra om fler av beräkningarna kan abstraheras till att nyttja sådana istället.

Citera

2025-01-16, 14:53 #8

Medlem

Reg: Aug 2023

Inlägg: 1 664

Citat:

Ursprungligen postat av Kottkompott

Sorry, du har rätt.
Jo, matmul är en tensoroperation, men det finns förstås fler sådana. Men matmul är väl rätt väloptimerad bland dessa?
Så då är det rätt bra om fler av beräkningarna kan abstraheras till att nyttja sådana istället.

Poängen med pappret är att man använder ändå mer matmul vilket gör att det går parallelisera bättre. en matris multiplikation multiplicerar flera värden samtidigt...

Huruvida detta är en bra arkitektur eller inte får vi invänta tills något släpps baserat på det, det finns gott om papper med olika arkitekturer som ska ersätta transformers, hittills har absolut ingenting kommit ut av det- inte ens Microsofts BitNet som de hypade om för drygt 2 år sedan. SMM arkitekturer som Mamba osv är det skrämmande tyst om. eller RWVK osv som visserligen i huvudsak är ett en personers projekt får inget direkt fäste heller.

Det är väldigt lätt att hävda saker i papper, men det är upp till bevis som gäller.

Citera

Ny arkitektur från Google: Titans

Skapa ett konto eller logga in för att kommentera

Skapa ett konto

Logga in