– I dag används ofta stora mängder text som bygger på uppgifter om personer till att förbättra verksamheter eller produkter. I hanteringen riskeras identiteter hos de som nämns i texten att röjas. HB Deid säkerställer att anonymiteten behålls samtidigt som den svenska personuppgiftslagen och EU:s dataskyddsförordning GDPR följs, säger Hercules Dalianis, en av forskarna bakom HB Deid.
Möjliga användningsområden för den nya programvaran kan, till exempel vara för företag att förbättra sina produkter genom att kundernas omdömen förblir anonyma eller genom att säkerställa att offentliga handlingar lämnas ut utan att personuppgifter avslöjas. Andra användningsområden kan vara forskning där studier bygger på transkriberade intervjuer, textmaterial som används till träning för artificiell intelligens, eller inom medicin där patientjournaler används till att förbättra hälsovård.
HB Deid har testats på data från Health Bank – Swedish Health Record Research Bank, en unik forskningsinfrastruktur med data från ett stort antal patientjournaler. Den artificiella intelligensen har tränats upp med hjälp av de datauppgifterna, och nu finns planer på att utöka testfasen i samarbete med Karolinska Universitetssjukhuset.
- Det är jättespännande att snart kunna använda systemet praktiskt på patientjournaler och tillgängliggöra dessa för forskning i syfte att förbättra hälsovården utan att riskera att röja någon patients identitet, säger Hercules Dalianis.
Ett exempel på användningsområde kan vara att ge en dator 10 000-tals exempel på radiologiutlåtanden i fri text och deras motsvarande röntgenbilder. Efter ett tag lär sig maskinen vilka bilder som motsvarar vilka typer av olika frakturer och vilken text som hör dit.
– Säg att du kommer in med en fotfraktur, genom att låta AI-styrda robotar jämföra din röntgenbild med en stor mängd tidigare bilder kan de göra en bedömning och skriva en text automatiskt som hjälper radiologen i sitt utlåtande utan att uppgifter som exempelvis namn på tidigare patienter riskerar att komma med, förklarar Hercules Dalianis.
Arbetet med HB Deid har gjorts inom ramen för forskningsprojektet DataLeash (Learning And Sharing under Privacy Constraints) i samarbete med bland annat Kungliga tekniska högskolan (KTH) och Karolinska Universitetssjukhuset. Programvaran bygger på automatisk avidentifiering baserad på maskininlärning och träning på många manuellt uppmarkerade svenska texter och kan därigenom identifiera personnamn, ålder, datum, kliniker eller organisationer i en text. Verktyget använder även regler som identifierar strukturerad information som telefonnummer och personnummer.
Kontakt: Professor Hercules Dalianis, Institutionen för data- och systemvetenskap, Stockholms universitet, e-post: hercules@dsv.su.se telefon: 08-16 16 16.
I länken nedan kan du själv testa hur HB Deid fungerar, ingen av den text du matar in sparas.