Google släppte igår kväll en ny forskningsrapport på en arkitektur som, om jag förstått det rätt, kan ersätta transformerarkitekturen som ligger till grund för ChatGPT och mycket annan AI vi ser idag.
Titans kallas den.
https://arxiv.org/abs/2501.00663
Jag ska inte låtsas som att jag är väl insatt i detta, men som jag uppfattat det inbegriper det:
- Modellen använder utöver tensoroperationer även matrismultiplikation vid träning, som är väl optimerad på dagens hårdvara. Vissa delar har visat sig kunna använda matmul istället för tensop, som då blir mer effektivt.
- Modellen har en ny minnesmodul som tillåts lära sig ny data och även glömma vid test-time, alltså medans den körs som när vi vanligen använder t.ex. chatbottar. Detta instämmer modellens parametrar medans den körs, till skillnad från transformer som mer använder kontexten för den enskilda körningen.
- Optimeringar inom träningen (Momentum) som bidrar till att mindre fel inom enskilda lager kan strykas över, samt viktminskning som ska hindra att träningsdatan får för stora parametrar.
- Uppdelning av träningsdatan i chunks, en viktig del för Momentumfunktionen, men som även förbättrar minneshantering.
- Parallell associativ scan. I grova drag parallellisering av Momentumfunktionen, vilket är kung när det ska köras på tusentals beräkningksort samtidigt.
- Kraftigt ökad prestanda i kontextlängder på över 2 miljoner tokens.
Behöver lusläsa den här mer för att förstå den bättre, men det känns som att detta kan bidra till rätt rejäla och snabba framsteg framöver inom AI-sfären.
Vi är nog långt ifrån en sprucken bubbla.