Selvom det danske sundhedsvæsen måske er et af de mest digitaliserede i verden, og vi indsamler patientdata som aldrig før, har lægerne svært ved at benytte disse data effektivt på tværs af fagområder og afdelinger i sundhedsvæsenet.
Udfordringen er, at man ofte ikke må bruge patientdata flere steder, da disse data der er indsamlet til ét formål, f.eks. i forbindelse med et projekt omkring en bestemt kræfttype. De må derfor ikke bruges til andet end det formål, medmindre den pågældende patient giver eksplicit tilladelse til dette.
Og her strander tingene ofte. For processen omkring at få indsamlet tilladelser og data er for tung, og man ender med for få datasæt til, at de ellers vigtige patientdata kan bruges til f.eks. forskning, analyse og forbedringer af patientforløb.
”Vi er egentligt ikke interesseret i data om den enkelte patient, men i data for den samlede patientgruppe. Vi leder derfor efter greb, der kan gøre det muligt at udvikle løsning på baggrund af de data som er indsamlet på danske patienter med overholdelse af alle gældende love herunder GDPR og med stor respekt for patienternes privatliv,” siger Henning Langberg, innovationschef og dr.med. på Rigshospitalet samt direktør for BETA.HEALTH East.
Løsningen på Dødens Gab i sundhedsvæsenet
Aktuelt står sundhedsvæsenet overfor en udfordring med et stigende antal patienter og reducerede ressourcer i form af færre hænder og mindre budgetter. ”Det er sundhedsvæsenets Dødens Gab,” peger Henning Langberg på. På Rigshospitalet forventer man, at man via maskinlæring og kunstig intelligens kan forbedre f.eks. scanninger, sundhedsviden og i sidste ende også patientforløb.
”Der ligger et kæmpe potentiale i at benytte al den sundhedsdata, som vi indsamler på kryds og tværs i sundhedssektoren, men vi er udfordret på, hvordan vi må bruge dem. Derfor er vi i gang med at kigge på, hvordan man kan åbne op for brugen af data på andre måder. F.eks. via brugen af syntetisk data,” fortæller Henning Langberg.
Skal man lave store sundhedsanalyser eller forbedre billedscanninger, så man f.eks. bedre kan identificere kræft, er der brug for meget store driftsdata, som en AI kan trænes på. Men da disse datasæt sjældent findes eller må bruges, er syntetisk data et oplagt alternativ.
Voksende interesse for syntetisk data
På Rigshospitalet barsler man med de først forsøg på at skabe syntetisk datasæt indenfor infektionsområdet. Og i Region Sjælland er man gået i gang med syntetisk data på billedscanning.
Så det er et område, hvor man oplever en stærkt stigende interesse indenfor sundhedssektoren.
Analysevirksomheden IDC forudsiger f.eks., at 95% af alle medicinalvirksomheder vil have få adgang til realdata om patienter i 2027. 25% af disse vil benytte disse til at skabe syntetisk patient- og sundhedsdata, som de kan bruge til bl.a. forskning og udvikling af medicin.
Henning Langberg oplever, at der allerede nu er ved at ske en holdningsændring i det danske sundhedssystem, hvor de store databaseforvaltere (ex. Sundhedsdatastyrelsen) i højere grad anerkender deres rolle som andet end nogen, der skal passe på patientdata – men også nogle der skal stille data til rådighed.
”Jeg tror det her område bliver meget stort i fremtiden. På de netværksmøder vi holder, kan jeg mærke, at man på kort tid er gået fra at være marginalt interesserede i syntetisk data – og til at være meget interesseret. I tillæg udvikler bl.a. Deloitte i øjeblikket værktøjer der udsiger noget om risikoen for re-identifikation af person i et syntetisk datasæt. Sådanne værktøjer vil være af stor betydning for accepten af syntetiske data som en sikker måde at anonymisere data på.” siger Henning Langberg.
Han tror derfor også, at det vil åbne op for, at langt flere it-virksomheder kan inviteres ind i sandboxes o. lign., så man kan teste ting af og finde nye løsninger sammen. Og at det vil blive lettere for de små og mellemstore it-leverandører at være med på udviklingen, da de ikke selv behøver store mængder realdata for at kunne være med.
Faktaboks: Hvad er syntetisk data?
Helt kort forklaret består syntetisk data af rent computergenerede datapunkter, der skabes som alternativ til data fra den virkelige verden. Det syntetiske datasæt indeholder ikke data fra det oprindelige datasæt og derfor ikke data der hidrører til patienter.
Har man f.eks. en AI, der har brug for en masse data for at kunne blive præcis i forhold til at finde kræftknuder på scanningsbilleder, kan det være et problem, hvis man kun har data fra 1.000 patienter.
Ved at sørge for at sammenhængen i de syntetisk data er de samme som i de virkelige data, kan man relativt hurtigt skabe data fra 100.000 virtuelle personer, som AI’en så kan træne på i stedet for det oprindelige 1.000 patienters data.
Syntetisk data bruges hovedsageligt, hvis ens eksisterende datasæt ikke er gode nok, og man derfor har behov for at skabe flere data, eller hvis man har personfølsomme og sensitive data, man gerne vil beskytte.
Du kan læse mere om teknologien bag syntetisk data her.
1 svar
Et oplagt alternativt, men også et farligt alternativ. Syntetisk data replikere, samt forstærker, de underliggende skævheder der findes i et datasæt, og hvis man ikke er opmærksom, eller hvis de skævheder ikke bliver opdaget, så bliver de algoritmer vi laver, endnu mere biaset. Algoritmerne er ikke bedre end det data vi får ind. Det er enormt vigtigt at man er opmærksom på de datasæt man har, hvem er i databasen, ligesom hvem er IKKE i databasen? Er der patienter vi ikke får ind, fordi deres adgang til sundhedsvæsnet er begrænset?
I skriver “Når vi er ude og rådgive kunder om brugen af syntetisk data, anbefaler vi, at man som minimum har 1.000 datapunkter fra den virkelige verden, før man går i gang. Ellers bliver datamodellerne for svage og risikoen for skævheder og fejlfortolkninger for store”
Hvad hvis de 1000 datapunkter ikke er repræsentabel, eller hvis man laver en fejlslutning at det repræsentabel, og det viser sig det ikke er?
Syntetisk data kan dog også bekæmpe det bias der eksisterer i et datasæt, hvis man vel og mærke er opmærksom på det? Henning har enorm fokus på de muligheder der er med det syntetiske data (som er berettiget, mulighederne er enorme), men knap så meget de lurende skævheder der kan medføre!