SvD 2022.12.10 Svensk AI får läsa på Flashback i stället för KB

2022-12-10, 23:53 #1

Medlem

Reg: Jan 2007

Inlägg: 9 288

SvD:s krönika av Per Gudmunsson: https://www.svd.se/a/onM37j/per-gudm...a-pa-flashback

Citat:

Svensk AI-utveckling hindras av att Kungliga biblioteket inte ger tillgång till dess digitaliserade samlingar av kulturarvet. Den svenska AI:n får i stället öva språkförståelse bland trollen på Flashback.

Per Gudmunsson
Publicerad 17:30

Den här artikeln kunde lika gärna ha författats av en artificiell intelligens. OpenAI:s ChatGPT är nu en hyfsad skribent.

Ty AI-utvecklingen accelererar, och jämförs med Moores lag om hur mikroprocessorers kapacitet regelbundet fördubblas.

[…] Den typ av AI som gör stora genombrott i dag (Large Language Models, LLM) saknar agens. Den hämtar in, sovrar och presenterar redan befintlig info. I praktiken är AI:n en superassistent som går till biblioteket och skriver en PM.

Men det är som med mänsklig kunskap. Skit in, skit ut. Är bokhyllan skral blir promemorian tunn. Och assistenten måste vara påläst nog att veta var den ska leta.

Framstegen sker just nu i den engelskspråkiga världen, drivna av amerikanska kommersiella utvecklare. Sverige ligger dock hyfsat till. Problemet är vårt lilla språkområde, som inte lockar stora investeringar.

Men vi saboterar också för oss själva. Just nu tränas GPT-SW3 i språkförståelse hos halvstatliga AI Sweden, nationellt centrum för tillämpad AI, och Wallenbergfinansierade kraftdatorn Berzelius i Linköping. Men trots att nationalbiblioteket samlar och bevarar allt tryck i Sverige har GPT-SW3 nekats tillgång till Kungliga bibliotekets digitaliserade samlingar.

[…] AI Sweden uppger att språkdatabasen i stället bland annat bygger på diskussionerna från ”Flashback, Familjeliv och svenska Reddit”. Det kan bli festligt.

Men här bör faktiskt regeringen gripa in. En framsynt kulturminister skulle tvinga KB att öppna dörrarna redan efter nästa regeringssammanträde.

Så kanske maskinerna kan skriva ledare på mitt jullov.

Per Gudmunsson

Källartikeln av Magnus Sahlgren: https://medium.com/ai-sweden/the-nor...e-a8d5aaf3db60

Citat:

How we work with training data for GPT-SW3

This post describes the work done by the NLU research group at AI Sweden to collect and process training data for the GPT-SW3 language model. We call the resulting dataset The Nordic Pile.

As we have described in our previous posts [1, 2], we develop GPT-SW3 in order to produce a foundational resource for Swedish (and Nordic) NLP, and to investigate the practical usefulness of large generative models for solving real-world NLP tasks. Our hope is that the model will be useful across a variety of different application domains and use cases, ranging from academic research to applications in both the public and private sectors.

We know from previous research that foundation models need to be large both with respect to the number of parameters in the model, and also with respect to the amount of training data that the model has seen. Since our goal is to develop a model that can be as representative as possible of the Swedish-speaking population, we aim for a final model with more than 100 billion parameters, and we aim to use training data that as closely as possible reflects the dialects, sociolects, demography and interests of the Swedish citizens.

[…]

The Nordic Pile
Since there are no readily available large-scale collections of Swedish text data, it has been necessary for us to compile our own dataset, based primarily on existing data sources such as OSCAR, MC4, and OPUS. We have also collected data from repositories such as DiVA, FASS, the Swedish government’s open data portal, 1177, Wikipedia, Litteraturbanken, as well as websites of Swedish authorities, and some of the largest Swedish discussion forums such as Flashback, Familjeliv, and Swedish discussions on Reddit.

In addition to this, we have also relied on the fact that Swedish is part of a relatively small family of languages (the North Germanic language group) that includes Norwegian, Danish, Icelandic, and Faroese. We therefore also include existing datasets in these languages, except for Faroese where we were not able to find any data. […]

The resulting dataset, which we call the Nordic Pile, amounts to approximately 1.3 TB of data in total[…

…]

Nog vore det intressant med jämförelse av parallellt körda avgränsningar i några för det ändamålet välvalda delfora.

Citera

2022-12-11, 00:10 #2

Medlem

Reg: Aug 2020

Inlägg: 781

"invandrare, ut med dooooom, muslimjävlar, mena, SD,AFS, vilken hudfärg?, " osv osv kommer nog vara främsta orden i den här AIns vokabulär.

oj glömde fb dase, dajmkryss, ta den i tvåan, med mera....

Citera

2022-12-11, 02:01 #3

Medlem

Reg: Aug 2003

Inlägg: 45 370

Jag slutade läsa efter "Per Gudmunsson" och jag är nog inte ensam om det.

Citera

2022-12-11, 09:22 #4

Medlem

Reg: Jul 2007

Inlägg: 22 081

Citat:

Ursprungligen postat av BigFatCone

Jag slutade läsa efter "Per Gudmunsson" och jag är nog inte ensam om det.

Det var ett viktigt inlägg som klart och tydligt visar upp ditt så viktiga avståndstagande samtidigt som du klär dig i en vänsterbliven gloria. Jag är säker på att du nu kommer få PM med glädjeyttringar och ryggdunkningar. Du lär nu omgående upphöjas på en piedistal, som en byst för vänsterblivna att beundra, vörda och efterlikna. Om bara fler användare av fb kunde dela med sig av sin aversion mot diverse skribenter så kunde vi äntligen nå det efterlängtade stadiet då vi normala, sunda och högermedvetna människor slipper ta del av era torftiga inlägg, antiintellektuella inställning till välrden samt oförmåga att diskutera sak istället för person.
¨
Vad gäller AI:n är det spännande att de därmed förlorar den så viktiga PK-agendan för sin AI, vilket gör att jag inte tror den kommer få något särskilt genomslag. En AI måste såklart lära sig att uttrycka sig på ett diplomatiskt sätt för att undvika att såra människor genom att uttrycka sanningar kring känsliga ämnen.

Lägnre fram lär ett EU-/FN-sanktionerat och standardiserat PK-inlärningspaket för AI tas fram så utvecklarna enkelt kan undvika att AI:n säger något vettigt kring kontroversiella ämnen.

Citera

2022-12-20, 20:41 #5

Moderator

Reg: Jan 2005

Inlägg: 7 327

Har noterat att man helt uppenbart spindlat Flashback och/eller andra liknande forum som bas till telefonens stavningskontroll. Kommer förstås inte på något specifikt exempel, men man har ju frustat till både en och tre gånger över förslagen man fått.

Det skulle förmodligen vara ganska underhållande att ha en konversation med den ofiltrerade versionen av AI:n när den är klar. Gissar dessutom att den faktiskt blir mer trovärdig på det viset än om man baserade den på digitaliserade böcker.

Citera

2022-12-21, 14:07 #6

Moderator

Reg: Jun 2007

Inlägg: 21 459

Missuppfattar inte Gudmundsson vad det främst handlar om? En AI lär sig känna igen hur folk faktiskt skriver och vilka fel de gör för att bättre kunna förstå skriven svensk text, vilket hjälper den att formulera sig mer korrekt. Det är inte så att den formulerar sig med vissa skribenter på Flashback som högsta stilideal.

Citera

2022-12-23, 21:58 #7

Medlem

Reg: Jul 2005

Inlägg: 16 369

Citat:

Ursprungligen postat av HusvagnSvensson

Missuppfattar inte Gudmundsson vad det främst handlar om? En AI lär sig känna igen hur folk faktiskt skriver och vilka fel de gör för att bättre kunna förstå skriven svensk text, vilket hjälper den att formulera sig mer korrekt. Det är inte så att den formulerar sig med vissa skribenter på Flashback som högsta stilideal.

Håller med, men vad är egentligen motsättningen? Låt AI:n lära sig språk både på finlitteratur och Flashback. Det kallas allmänbildning.

Citera

2022-12-23, 22:46 #8

Moderator

Reg: Jun 2007

Inlägg: 21 459

De diskuterade projektet på radio och då påpekade någon insatt att det är problematiskt att ge AI: n tillgång till information från Sverige eftersom programvaran är ägd av utländska intressen. Det har sannolikt Gudmundsson också missat.

Flashback borde förmodligen ta betalt om kommersiella intressen vill använda information från forumet för utvecklingssyften.

Citera

2022-12-30, 17:38 #9

Medlem

Reg: Dec 2011

Inlägg: 4 998

Citat:

Ursprungligen postat av HusvagnSvensson

De diskuterade projektet på radio och då påpekade någon insatt att det är problematiskt att ge AI: n tillgång till information från Sverige eftersom programvaran är ägd av utländska intressen. Det har sannolikt Gudmundsson också missat.

Flashback borde förmodligen ta betalt om kommersiella intressen vill använda information från forumet för utvecklingssyften.

Det känns som att du fått något om bakfoten här. Inläggen på Flashback ligger extremt öppna och i princip vilken tjomme som helst med grundläggande teknikkunskap kan extrahera dem. Det är nog den främsta anledningen till att det här valet har gjorts.

Citera

2022-12-30, 18:49 #10

Moderator

Reg: Jun 2007

Inlägg: 21 459

Citat:

Ursprungligen postat av Disciplina

Det känns som att du fått något om bakfoten här. Inläggen på Flashback ligger extremt öppna och i princip vilken tjomme som helst med grundläggande teknikkunskap kan extrahera dem. Det är nog den främsta anledningen till att det här valet har gjorts.

Det var ett inslag i radion med kvinnan som var ansvarig för projektet. Det var hon som påpekade problemet med att ägaren till denna AI är ett amerikanskt teknikföretag lydande under amerikanska villkor för säkerhetspolitik vad gäller att gratis dela med sig information från svenska textdata.

Att information ligger öppen betyder nödvändigtvis inte att den är fri att utnyttja gratis.

Edit

Francisca Hoyer: https://sverigesradio.se/avsnitt/vad...obotar-om-fusk

__________________
Senast redigerad av HusvagnSvensson 2022-12-30 kl. 19:04.

Citera

2023-07-01, 21:17 #11

Moderator

Reg: Jun 2007

Inlägg: 21 459

Reddit vill ha betalt för att AI nyttjar deras material rapporterades för ett tag sedan.

https://www.nytimes.com/2023/04/18/t...ai-google.html

Jag påpekade tidigare här i tråden att Flashback borde ta betalt för text som blir snodd härifrån.

Citera

2023-07-03, 16:07 #12

Medlem

Reg: Sep 2009

Inlägg: 10 731

Citat:

Ursprungligen postat av HusvagnSvensson

Jag påpekade tidigare här i tråden att Flashback borde ta betalt för text som blir snodd härifrån.

Jag vill minnas att inläggen som skrivs på Flashback är under Creative Commons licens, alltså att dom är öppna och fria att citera och använda. Det blir lite lattjo om Flashback ska ta betalt då.

Själv ser jag fram emot att AI får lära sig ett och annat av Varnagels klassiska inlägg här på Flashback.

"I Afrika bor det negrar som hänger i skuggan under palmerna och käkar bananer" och sen var det slut på den AI-inlärningen

Citera

SvD 2022.12.10 Svensk AI får läsa på Flashback i stället för KB

Skapa ett konto eller logga in för att kommentera

Skapa ett konto

Logga in