Datorkortade texter gör
webben mer överskådlig
(2000-09-11 01:00)
Snart kan vi be sökmaskinerna
att sammanfatta webbsidorna åt oss. En teknologie doktor har utvecklat en lösning
för svenska förhållanden.
Svenska är inte som engelska.
De flesta sökmaskiner skrivs av amerikaner för amerikaner. Och för
engelsktalande uppkommer sällan problemet att man inte hittar ordet "verkstäder"
om man matar in sökordet "verkstad". Engelska är enklare än
de flesta andra språk.
Vill vi kunna söka information på vårt eget språk på
webben och i andra datoriserade textsamlingar måste vi alltså konstruera
de språkliga verktygen själva.
Den slutsatsen har forskaren Hercules Dalianis på Kungliga tekniska högskolan
dragit.
Första svenska lösningen
Han samarbetar med den svenska sökmaskinen och portalen Euroseek om att ta fram
verktyg för att göra webben mer överskådlig.
Euroseek har en mångspråkig profil. Användarna kan få Euroseeks
webbsida presenterad på valfritt europeiskt språk ñ det finns
40 att välja mellan ñ och också begränsa sökningarna
till ett av de språken. Ännu fler språk kommer när Euroseek
drar igång sin Asiensatsning.
Hercules Dalianis har gjort det första programmet, Swesum, som gör automatiska
sammanfattningar av svensk text.
Hans program kan bli ett av hjälpmedlen för att göra webben överskådlig
och flerspråkig.
Det är nämligen enklare att först sammanfatta texten på en webbsida
och att sedan använda ett automatiskt översättningsprogram för
att översätta sammanfattningen än att göra tvärtom.
Automatiska översättningar är ju sällan perfekta, och då
lämpar de sig dåligt som underlag för sammanfattningar.
Samverkande metoder
Konsten att göra automatiska sammanfattningar började utvecklas på
1960-talet, berättar Hercules Dalianis.
Då började man lagra vetenskapliga artiklar i datasystem, men lagringsutrymme
var dyrt, och man nöjde sig därför med att lagra sammanfattningar.
Ofta hade artikelförfattaren själv skrivit en, men om en sådan saknades
lät man ett datorprogram göra sammandraget.
Nuförtiden, fortsätter han, är problemet det motsatta. Det finns så
mycket text på internet att det behövs automatiska sammanfattningar för
att man ska kunna överblicka materialet.
Finns det många metoder att göra automatiska sammanfattningar, eller
handlar det om variationer på samma metod?
ñ Det finns huvudsakligen två metoder för textsammanfattningar,
berättar Hercules Dalianis, en som fungerar och en som inte fungerar. Den som
fungerar har flera varianter, men de liknar varandra.
De tekniker som utvecklades på 1960-talet har vidareutvecklats och finslipats,
men inte ändrats i grunden. Och programmet arbetar inte alls som en människa
skulle göra. Det förstår inte vad det läser, det vet inget om
ämnet eller sammanhanget.
Utan det är en kombination av statistiska och språkvetenskapliga metoder
tillsammans med tumregler som har visat sig fungera.
Grunduppgiften är att hitta nyckelorden i texten. Med ledning av dem kan man
avgöra vilka meningar som är viktiga och mindre viktiga.
Programmet letar igenom texten efter nyckelord enligt följande kriterier:
- Var i texten finns meningen?
De första meningarna i texten brukar vara viktigast, särskilt i nyhetsartiklar
och rapporter.
- Vilka ord ingår i rubriken?
- Vilka ord är markerade?
Det kan vara ord skrivna i halvfet eller kursiv stil, ord inom citattecken och ord
som skrivs med stor bokstav ñ det är oftast namn.
- Siffror brukar vara viktiga.
- Vilka ord förekommer i andra
meningar?
Genom att sålla fram textens nyckelord kan programmet sedan rangordna meningarna.
Ju fler viktiga ord det finns i en mening, ju viktigare kan man anta att meningen
är.
De viktigaste meningarna behåller programmet, de minst viktiga stryks.
Ordlista nödvändig hjälp
Man kan tro att detta system gör sammanfattningarna osammanhängande och
ologiska, men Swesum kan korta ned texter mellan 20 eller 40 procent av den ursprungliga
längden utan att det blir nonsens.
Det förutsätter att det är sammanhängande, berättande texter.
Uppräkningar och bruksanvisningar klarar inte sådana kortningar.
Tekniken fungerar bäst på nyhetstexter, och det är sådana som
samarbetet med Euroseek främst är inriktat på.
Ett problem med nyckelord är förstås att de vanligaste orden i svenskan
är "och", "i", "men" och andra nödvändiga
men innehållslösa ord. Man måste kunna sortera bort sådana
ord. Nyckelord är i regel substantiv, adjektiv och adverb.
Ett annat problem är ordens böjningsformer.
Det är inget som engelsktalande bekymrar sig om, eftersom pluraländelsen
av engelska substantiv alltid är ett enkelt s, utom i ett fåtal fall (mouseñmice)
som man kan lära sig utantill.
Men Swesum måste veta att "verkstäder" är samma ord som
"verkstad". Annars blir ordfrekvenserna missvisande.
För att hantera dessa problem innehåller Swesum ett lexikon på 700
000 ord. Med stöd av det lexikonet kan programmet utesluta prepositioner och
konjunktioner, alltså ord som "i", "på" och "men".
Det kan också se att "datorernas" är en böjningsform av
"dator".
Men hur sammanställer man en ordlista på 700 000 ord?
ñ Inte för hand, det skulle aldrig gå, berättar Hercules Dalianis.
Utan det sker genom att man söker igenom stora textmassor.
Taggare genomsöker corpus
Stora textmassor ñ miljontals ord ñ som används som underlag för
språkvetenskaplig forskning brukar kallas för corpus, och man talar ibland
om corpuslingvistik. Den typen av forskning har visat sig vara fruktbar. Det mest
effektiva sättet att skapa datorprogram för taligenkänning och automatisk
översättning tycks vara att använda statistiska metoder för att
analysera textmassor.
Att lära datorer att göra grammatisk analys, som att först ta ut subjekt
och predikat i meningarna och sedan på något sätt förstå
vad texten handlar om, verkar vara svårare. Alla kommersiella program för
automatisk översättning och taligenkänning bygger på statistisk
analys.
Helt utan språkvetenskap går det dock inte.
Genomsökningen av de stora textmängderna görs av en så kallad
taggare, ett program som känner igen ordklasser och böjningsformer.
ñ Vi kallar den för en lättparser, berättar Hercules. Mer kraftfulla
parsrar klarar av att göra en grammatisk analys av meningen, men då går
det förstås långsammare.
Ett typiskt problem är att avgöra om "men" är en konjunktion
eller betecknar en skada. Precis som människor kan en parser bara avgöra
detta genom att titta på sammanhanget.
Vem är "hon"?
Och så är det frågan om sammanhanget.
I normala välskrivna texter knyter varje mening på något sätt
an till den föregående. Byter man ämne markerar man det genom att
göra nytt stycke eller med en rubrik.
Risken med automatisk textsammanfattning är förstås att sammanhanget
går förlorat. Eller, än värre, att programmet skapar nya sammanhang
genom att knyta ihop två meningar. Tyvärr är det inte så lätt
för ett datorprogram att avgöra om två meningar hör ihop eller
handlar om helt olika saker.
Vi gör nämligen flitigt bruk av pronomen som "han", "hon"
och "den", och om texten är välskriven förstås läsaren
vad som menas.
Normalt syftar ett personligt pronomen till den person som senast nämndes i
texten. Men "hon" syftar naturligtvis inte på Bertil. Det syftar
på den kvinna som senast nämndes i texten.
Sådant ser vi människor som en självklarhet, men förklara det
för en dator, den som kan.
Men det är en nödvändighet för ett program som ska avgöra
vilka meningar som hör ihop.
Pronomenresolution är den språkvetenskapliga termen för detta. Alltså
att fastställa vad ord som "han", "hon", "detta"
och "det" syftar på.
Här har doktoranden Martin Hassel bidragit med ett program. Det använder
två metoder. Dels lägger programmet upp listor på personer och ting
som nämns.
För varje "han", "hon", "den" eller "det"
söker programmet igenom listan och försöker hitta vad pronomenet står
för. Dels använder programmet semantisk information för att avgöra
vad texten och enskilda meningar handlar om.
Genom att kombinera båda metoderna kan programmet i de flesta fall hitta den
rätta motsvarigheten till ett pronomen.
Programmet kan sedan helt enkelt byta ut alla pronomen mot namn eller substantiv.
Gör man pronomenresolution innan man låter Swesum korta texten har man
alltså bättre förutsättningar att få en logiskt sammanhängande
sammanfattning. Men hur fungerar detta?
Studenter vid KTH har fått bedöma texter som kortats till 30 procent av
den ursprungliga längden. Det var nyhetstexter på två eller tre
sidor.
Enligt försökspersonerna var 80 procent av sammanfattningarna godtagbara.
Automatisk textsammanfattning med Swesum
Pröva själv automatisk textsammanfattning med Swesum på: http://www.nada.kth.se/~xmartin/swesum/index.html
Texten som ska sammanfattas måste finnas på webben.
Swesum är det första programmet i sitt slag som är skrivet specifikt
för svenska. Det har utvecklats under ledning av Hercules Dalianis på
Kungliga tekniska högskolan.
Swesum arbetar med en kombination av språkvetenskapliga metoder, statistiska
metoder och beprövade tumregler. Bland annat med stöd av en ordlista på
700 000 ord avgör programmet först vilka ord som är viktigast i texten.
Därefter rangordnas meningarna med ledning av hur ofta nyckelorden förekommer.
Texten kortas genom att programmet behåller meningar med många
nyckelord och stryker meningar med få nyckelord. Man kan korta texter till
bara tio procent av den ursprungliga längden, men det blir oftast nonsens. Däremot
kan man ofta korta dem till 30 procent och ändå få en begriplig
text.
Ett hjälpmedel är pronomenresolution. Det innebär att man fastställer
vilka namn eller ord som personliga pronomen som "han" och "hon"
syftar på. Programmet behöver då inte längre räkna alla
"hon" som samma ord, utan som olika ord beroende på vem "hon"
är. Ett program för pronomenresolution har utvecklats av Martin Hassel
på KTH.
Hercules Dalianis samarbetar med sökmaskinen Euroseek om att införa
automatisk textsammanfattning på webben. Han utvecklar även teknik som
gör det möjligt att känna igen ordens böjningsformer.
Även riksdagen har visat intresse
för denna typ av teknik för att kunna erbjuda sammanfattningar av betänkanden,
motioner och debatter.
Anders
Lotsson
Läs
mer av samma skribent
|
 |