Projekttid: 1 november 2006 - 31 december 2009

Idag produceras en mycket stor mängd texter som lagras digitalt. Utmaningen är att hitta rätt information, och att hitta samband i den stora mängden information. Målet med KEA-projektet är att hitta samband i den stora mängd information som finns i elektroniska patientjournaler.

I KEA-projektet samarbetar DSV med Stockholms läns landsting (SLL) och Karolinska universitetssjukhuset.

Stockholms läns landsting har ett stort journalsystem som täcker samtliga kliniker och sjukhus i länet. DSV har fått tillgång till en miljon av dessa journaler (utan personnummer och namn). Journalerna innehåller stora mängder ostrukturerad text som i princip aldrig återanvänds. Genom att ta fram och utveckla dataprogram som automatiskt kan strukturera informationen i journalerna kan man finna både synliga och dolda samband mellan texter.

Med datalingvistiska metoder kan man sedan få fram ny kunskap som kan vara användbar i medicinsk forskning om exempelvis svårbedömda diagnoser.

Avidentifiering av patientjournaler

En grundläggande fråga för KEA-projektet är att göra informationen i patientjournaler tillgänglig utan att riskera att patienternas identitet avslöjas.

Patientjournaler innehåller mycket känslig information som inte får spridas. KEA-projektet har därför utvecklat en preliminär standard för avidentifiering av patientjournaler skrivna på svenska. De dataprogram som används har då programmerats för att känna igen svenska namn, adresser, telefonnummer, e-postadresser och andra uppgifter som kan riskera att röja patientens identitet. Efter att journalerna har blivit avidentifierade kan de tillgängliggöras för annan forskning.

Planerade experiment

Säkerhet och osäkerhet i patientjournaler

I journaler finns fältet Bedömning där vårdpersonalen fritt kan skriva om patientens tillstånd och behandling. Det innebär att bedömningsfältet ofta innehåller osäkra eller spekulativa uttryck. DSV har annoterat 8 000 slumpvis utvalda meningar från journalerna och annoteringarna visade på ett stort antal spekulationer och osäkerhetsuttryck. När annoteringarna är analyserade mer ingående kan man utveckla verktyg som kan identifiera sådana uttryck automatiskt.

Hjälp att hitta rätt ICD-kod

Ett vanligt problem för sjukvårdspersonal är att välja rätt ICD-10-kod, och att hitta rätt bland de över 35 000 koder som finns. En lösning kan vara att låta ett dataprogram föreslå ICD-koder baserade på den skriftliga beskrivningen av symptom eller diagnos.

KEA-projektet har också utvecklat ett preliminärt system som kan koppla ihop den fria texten i patientjournalerna med diagnoserna i ICD-10-koderna och på så sätt få fram vilka symptom och termer som används i samband med koderna. Systemet kan också validera att rätt kod är vald.

Synonymer i patientjournaler

I patientjournalerna förekommer flera olika synonymer för samma symptom eller sjukdomar. KEA-projektet har tagit fram dynamiska listor med sådana synonymer som sedan kan användas i ett vidare arbete med att fram nya termer och att utveckla riktlinjer för den terminologin som finns idag.

Listorna med synonymerna kan också användas för att göra patientjournaler mer tillgängliga och förståeliga för patienten. I patientens version av sin journal kan då de fackspråkliga termerna bli utbytta mot mer allmänspråkliga sådana. 

Hypotesgenerering

Den stora mängd information som finns skrivna i fritext i patientjournalerna har hittills varit ett outforskat område. Med hjälp av text mining kan man generera nya hypoteser om samband mellan olika faktorer som rör sjukvård och hälsa. Text mining är processen att upptäcka meningsfulla, tidigare okända mönster och samband från ostrukturerad data.

Hittills har hypoteserna "lantbrukare röker mindre än genomsnittet" och "kvinnor lider av benskörhet i större utsträckning än män" genererats med hjälp av text mining. Hypoteserna måste sedan prövas och bekräftas med andra typer av undersökningar. De resultat man får fram genom att generera hypoteser från journaltexterna kan sedan vara utgångspunkt för större studier kring vilka samband som finns mellan olika faktorer, som kön, ålder, yrke, och sjukdomar.
 

Publikationer>>

 

 

 

 

 

 

 

 

Forskare

Nyheter

KEA-projektet på konferensen Virtual Healtcare Interaction i Arlington, USA

Läs mer under Nyheter

Exjobbsförslag

 Förslag på examensarbeten inom området språkteknologi och elektroniska patientjournaler

Five Master thesis proposals

Normalisering av patientjournaler skrivna på svenska (pdf)

Samarbetspartners

Stockholms läns landsting
Karolinska universitetssjukhuset

Finansiär: Vinnova>>

Kontakt

Docent Hercules Dalianis
hercules@dsv.su.se
Tfn: 070-568 13 59