SvD:s krönika av Per Gudmunsson: https://www.svd.se/a/onM37j/per-gudm...a-pa-flashback
Källartikeln av Magnus Sahlgren: https://medium.com/ai-sweden/the-nor...e-a8d5aaf3db60
Citat:
Svensk AI-utveckling hindras av att Kungliga biblioteket inte ger tillgång till dess digitaliserade samlingar av kulturarvet. Den svenska AI:n får i stället öva språkförståelse bland trollen på Flashback.
Per Gudmunsson
Publicerad 17:30
Den här artikeln kunde lika gärna ha författats av en artificiell intelligens. OpenAI:s ChatGPT är nu en hyfsad skribent.
Ty AI-utvecklingen accelererar, och jämförs med Moores lag om hur mikroprocessorers kapacitet regelbundet fördubblas.
[…] Den typ av AI som gör stora genombrott i dag (Large Language Models, LLM) saknar agens. Den hämtar in, sovrar och presenterar redan befintlig info. I praktiken är AI:n en superassistent som går till biblioteket och skriver en PM.
Men det är som med mänsklig kunskap. Skit in, skit ut. Är bokhyllan skral blir promemorian tunn. Och assistenten måste vara påläst nog att veta var den ska leta.
Framstegen sker just nu i den engelskspråkiga världen, drivna av amerikanska kommersiella utvecklare. Sverige ligger dock hyfsat till. Problemet är vårt lilla språkområde, som inte lockar stora investeringar.
Men vi saboterar också för oss själva. Just nu tränas GPT-SW3 i språkförståelse hos halvstatliga AI Sweden, nationellt centrum för tillämpad AI, och Wallenbergfinansierade kraftdatorn Berzelius i Linköping. Men trots att nationalbiblioteket samlar och bevarar allt tryck i Sverige har GPT-SW3 nekats tillgång till Kungliga bibliotekets digitaliserade samlingar.
[…] AI Sweden uppger att språkdatabasen i stället bland annat bygger på diskussionerna från ”Flashback, Familjeliv och svenska Reddit”. Det kan bli festligt.
Men här bör faktiskt regeringen gripa in. En framsynt kulturminister skulle tvinga KB att öppna dörrarna redan efter nästa regeringssammanträde.
Så kanske maskinerna kan skriva ledare på mitt jullov.
Per Gudmunsson
Per Gudmunsson
Publicerad 17:30
Den här artikeln kunde lika gärna ha författats av en artificiell intelligens. OpenAI:s ChatGPT är nu en hyfsad skribent.
Ty AI-utvecklingen accelererar, och jämförs med Moores lag om hur mikroprocessorers kapacitet regelbundet fördubblas.
[…] Den typ av AI som gör stora genombrott i dag (Large Language Models, LLM) saknar agens. Den hämtar in, sovrar och presenterar redan befintlig info. I praktiken är AI:n en superassistent som går till biblioteket och skriver en PM.
Men det är som med mänsklig kunskap. Skit in, skit ut. Är bokhyllan skral blir promemorian tunn. Och assistenten måste vara påläst nog att veta var den ska leta.
Framstegen sker just nu i den engelskspråkiga världen, drivna av amerikanska kommersiella utvecklare. Sverige ligger dock hyfsat till. Problemet är vårt lilla språkområde, som inte lockar stora investeringar.
Men vi saboterar också för oss själva. Just nu tränas GPT-SW3 i språkförståelse hos halvstatliga AI Sweden, nationellt centrum för tillämpad AI, och Wallenbergfinansierade kraftdatorn Berzelius i Linköping. Men trots att nationalbiblioteket samlar och bevarar allt tryck i Sverige har GPT-SW3 nekats tillgång till Kungliga bibliotekets digitaliserade samlingar.
[…] AI Sweden uppger att språkdatabasen i stället bland annat bygger på diskussionerna från ”Flashback, Familjeliv och svenska Reddit”. Det kan bli festligt.
Men här bör faktiskt regeringen gripa in. En framsynt kulturminister skulle tvinga KB att öppna dörrarna redan efter nästa regeringssammanträde.
Så kanske maskinerna kan skriva ledare på mitt jullov.
Per Gudmunsson
Källartikeln av Magnus Sahlgren: https://medium.com/ai-sweden/the-nor...e-a8d5aaf3db60
Citat:
Nog vore det intressant med jämförelse av parallellt körda avgränsningar i några för det ändamålet välvalda delfora.
How we work with training data for GPT-SW3
This post describes the work done by the NLU research group at AI Sweden to collect and process training data for the GPT-SW3 language model. We call the resulting dataset The Nordic Pile.
As we have described in our previous posts [1, 2], we develop GPT-SW3 in order to produce a foundational resource for Swedish (and Nordic) NLP, and to investigate the practical usefulness of large generative models for solving real-world NLP tasks. Our hope is that the model will be useful across a variety of different application domains and use cases, ranging from academic research to applications in both the public and private sectors.
We know from previous research that foundation models need to be large both with respect to the number of parameters in the model, and also with respect to the amount of training data that the model has seen. Since our goal is to develop a model that can be as representative as possible of the Swedish-speaking population, we aim for a final model with more than 100 billion parameters, and we aim to use training data that as closely as possible reflects the dialects, sociolects, demography and interests of the Swedish citizens.
[…]
The Nordic Pile
Since there are no readily available large-scale collections of Swedish text data, it has been necessary for us to compile our own dataset, based primarily on existing data sources such as OSCAR, MC4, and OPUS. We have also collected data from repositories such as DiVA, FASS, the Swedish government’s open data portal, 1177, Wikipedia, Litteraturbanken, as well as websites of Swedish authorities, and some of the largest Swedish discussion forums such as Flashback, Familjeliv, and Swedish discussions on Reddit.
In addition to this, we have also relied on the fact that Swedish is part of a relatively small family of languages (the North Germanic language group) that includes Norwegian, Danish, Icelandic, and Faroese. We therefore also include existing datasets in these languages, except for Faroese where we were not able to find any data. […]
The resulting dataset, which we call the Nordic Pile, amounts to approximately 1.3 TB of data in total[…
…]
This post describes the work done by the NLU research group at AI Sweden to collect and process training data for the GPT-SW3 language model. We call the resulting dataset The Nordic Pile.
As we have described in our previous posts [1, 2], we develop GPT-SW3 in order to produce a foundational resource for Swedish (and Nordic) NLP, and to investigate the practical usefulness of large generative models for solving real-world NLP tasks. Our hope is that the model will be useful across a variety of different application domains and use cases, ranging from academic research to applications in both the public and private sectors.
We know from previous research that foundation models need to be large both with respect to the number of parameters in the model, and also with respect to the amount of training data that the model has seen. Since our goal is to develop a model that can be as representative as possible of the Swedish-speaking population, we aim for a final model with more than 100 billion parameters, and we aim to use training data that as closely as possible reflects the dialects, sociolects, demography and interests of the Swedish citizens.
[…]
The Nordic Pile
Since there are no readily available large-scale collections of Swedish text data, it has been necessary for us to compile our own dataset, based primarily on existing data sources such as OSCAR, MC4, and OPUS. We have also collected data from repositories such as DiVA, FASS, the Swedish government’s open data portal, 1177, Wikipedia, Litteraturbanken, as well as websites of Swedish authorities, and some of the largest Swedish discussion forums such as Flashback, Familjeliv, and Swedish discussions on Reddit.
In addition to this, we have also relied on the fact that Swedish is part of a relatively small family of languages (the North Germanic language group) that includes Norwegian, Danish, Icelandic, and Faroese. We therefore also include existing datasets in these languages, except for Faroese where we were not able to find any data. […]
The resulting dataset, which we call the Nordic Pile, amounts to approximately 1.3 TB of data in total[…
…]