Skal vi have en dansk sprogmodel?

Er det værd at investere i en dansk sprogmodel, der kan matche de store internationale modeller, eller vil det være klogere at fokusere på at finetune og udnytte de eksisterende modeller til danske formål?

Lige nu er der en ophedet diskussion i gang om, hvorvidt vi i Danmark skal bygge vores egen danske generative sprogmodel, som vi trygt kan bruge i det offentlige og i det hele taget som supplement til ChatGPT og de andre amerikanske tjenester.

Mens nabolandene Sverige og Norge allerede er i gang med at udvikle deres egne generative sprogmodeller, står Danmark over for et afgørende valg.

Skal Danmark følge trop? Eller er vi allerede for sent ude? Og hvilke konsekvenser kan det have for bevarelsen af dansk kultur og sprog, hvis vi undlader?

I denne episode af “Blinde Vinkler” undersøger vært Marie høst sammen med Anders Søgaard, professor i Natural Language Processing og Machine Learning ved Københavns Universitet, i hvilket omfang de teknologier, der infiltrerer vores privatliv og samfund, kan og bør udvikles med udgangspunkt i vores unikke kulturhistorie.

Hvad taler for at bygge en dansk sprogmodel?

Når debatten om udviklingen af en dansk generativ sprogmodel tager fart, skyldes det, at der både er fordele og ulemper ved at gøre det.

På den ene side er der nogle juridiske overvejelser.

Her er et centralt argument særligt ønsket om at bevare kontrollen over træningsdata for at sikre, at modellen ikke er trænet på ophavsretligt beskyttet materiale eller data, som indeholder personfølsomme oplysninger.

Og det er altså et aspekt, som er særlig relevant i lyset af de stramme databeskyttelseslove og ophavsretlige regler i EU og Danmark.

”Det er klart, at lige nu er der en masse mennesker, der sidder rundt omkring ude i forvaltningen, eller i hjemmeplejen, og i virkeligheden kan føle sig fristet til at bruge ChatGPT, eller GPT4, eller et eller andet, til at hjælpe dem i deres arbejdsgange. Og det kan de ikke. Fordi så vil de sende personfølsomme oplysninger til Silicon Valley, eller hvad det nu er, der sker bag scenerne,” fortæller Anders Søgaard og tilføjer:

”Hvis nu Statens IT stod for deres egen GPT4-model, så ville alting jo være muligt. Og det er jo en del af rationalet bag at overveje de her modeller,” forklarer Anders Søgaard.

Dansk data er ikke nok til at bygge en konkurrencedygtig sprogmodel

Men i jagten på at skabe en dansk generativ sprogmodel, der fuldt ud forstår og afspejler dansk kultur, støder vi bl.a. på en udfordring med at bygge sprogmodellen på tilstrækkelige, danske data.

”Hvis man bare tog det data, som vi kan finde, som ikke er copyrightet, som ikke indeholder personfølsomme oplysninger, og som vi mener repræsenterer de normer og værdier, som der er i det danske samfund, og som i øvrigt kommer fra Danmark, så tror jeg ikke, det er nok til at træne en model,” fortæller Anders Søgaard.

Her kunne en løsning bl.a. være at supplere med data fra andre kilder, som f.eks. fra vores nabolande Sverige og Norge, eller ved at anvende en stor mængde syntetisk data – en praksis, der for tiden vinder frem i udviklingen af sprogmodeller.

Derfor er manglen på data, ifølge Anders Søgaard, ikke nødvendigvis et problem, hvis vi i Danmark vil bygge vores egen sprogmodel.

Spørgsmålet er snarere, om det er nødvendigt at besvære sig med.

For hvis vi ser på de store, etablerede modeller fra f.eks. OpenAI og Google, er det relevant også at overveje, om de ikke allerede indeholder tilstrækkeligt med data, der afspejler danske værdier, normer og sproglige nuancer.

“Når det kommer til værdier og normer, når det kommer til kultur, når det kommer til sprogligheden, så tror jeg, at man kan være ret godt dækket ind med det træningsdata, der findes i forvejen i det her økosystem blandt folk, der udvikler de her modeller,” vurderer Anders Søgaard.

Men omvendt ligger fordelen ved dansk data særligt i det historisk og kulturelt forankrede:

“Når det kommer til helt specifikke faktorer, altså hvem var borgmesteren i Ribe i 1833, så tror jeg, at der er meget at bidrage med,” tilføjer han.

Nøglen til at opbygge en dansk sprogmodel

Hvis man vælger at investere i en dansk sprogmodel, vil det ifølge Anders Søgaard være uforsvarligt ikke at fortsætte med at udvikle og forbedre den.

For uden kontinuerlig udvikling ville en sådan model hurtigt blive forældet og overhalet af andre modeller, der konstant udvikles og forbedres.

Og det peger netop på en af de største udfordringer, der er ved at bygge en dansk sprogmodel. For den vil koste mange penge både at bygge, videreudvikle og drifte:

”Det at holde den i luften og sørge for, at folk kan bruge den, selv hvis man ikke videreudvikler, så er det klart, at det er jo tåbeligt at lave en model og ikke videreudvikle på den. Fordi den model, selv hvis vi lavede en model, som var konkurrencedygtig i forhold til de modeller, der er på markedet, så ville der gå præcis to og en halv uge, før den ikke længere var det.”

Derfor understreger Anders Søgaard også, at beslutningen om at udvikle en dansk sprogmodel vil kræve en langsigtet forpligtelse, både i form af finansiel investering og et dedikeret ønske om at udvikle og vedligeholde systemet.

Og her kan det altså give mening at se på et bredere europæisk eller nordisk samarbejde.

Lyt med og bliv klogere på mange af de andre nuancer, der er knyttet til diskussionen om, hvorvidt Danmark gør klogt i at foretage en investering i en dansk sprogmodel.

Skriv et svar

Din e-mailadresse vil ikke blive publiceret. Krævede felter er markeret med *