Naar inhoud springen

Gebruiker:Harten24/Kladblok

Uit Wikipedia, de vrije encyclopedie

Word-sense disambiguation (WSD) is het proces waarbij wordt vastgesteld welke betekenis van een woord wordt bedoeld in een zin of ander contextueel segment. In de menselijke taalverwerking en cognitie gebeurt dit meestal onbewust/automatisch, maar het kan vaak bewust worden wanneer dubbelzinnigheid de duidelijkheid van de communicatie schaadt, gezien de alomtegenwoordige polysemie in natuurlijke taal. In de computationele taalkunde is het een open probleem dat van invloed is op andere computergerelateerde geschriften, zoals discours, verbetering van de relevantie van zoekmachines, oplossing van anaforen, coherentie en inferentie.

Aangezien natuurlijke taal een weerspiegeling vereist van de neurologische werkelijkheid, zoals gevormd door de vermogens die worden geleverd door de neurale netwerken van de hersenen, heeft de computerwetenschap een langdurige uitdaging gehad in het ontwikkelen van het vermogen in computers om natuurlijke taal te verwerken en machinaal leren.

Er zijn vele technieken onderzocht, waaronder op woordenboeken gebaseerde methoden die gebruik maken van de in lexicale bronnen gecodeerde kennis, methoden voor machinaal leren onder toezicht waarbij voor elk afzonderlijk woord een classificator wordt getraind op een corpus van handmatig geannoteerde voorbeelden, en volledig ongesuperviseerde methoden die voorkomens van woorden clusteren en daarbij woordzinnen genereren. Van deze methoden zijn de benaderingen op basis van supervisie tot nu toe het meest succesvol geweest.

De nauwkeurigheid van de huidige algoritme is moeilijk vast te stellen zonder een groot aantal voorbehouden. In het Engels ligt de nauwkeurigheid op het grove niveau routinematig boven 90% (vanaf 2009), waarbij sommige methoden voor bepaalde homografen meer dan 96% halen. In evaluaties (SemEval-2007, Senseval-2) zijn nauwkeurigheden van 59,1% tot 69,0% gemeld voor het fijnmaziger onderscheid tussen zinsdelen, terwijl de basisnauwkeurigheid van het eenvoudigste algoritme dat altijd de meest frequente zin kiest, respectievelijk 51,4% en 57% bedroeg.

Geschiedenis[bewerken | brontekst bewerken]

WSD werd voor het eerst geformuleerd in als een aparte computationele taak tijdens het begin van machinevertaling in de jaren 1940, waardoor het een van de oudste problemen in de computationele taalkunde is geworden. Warren Weaver introduceerde voor het eerst het probleem in een computationele context in zijn memorandum van 1949 over vertaling .[1] Later betoogde Bar-Hillel (1960) [2] dat WSD niet kon worden opgelost door "elektronische computer" vanwege de noodzaak in het algemeen om alle wereld kennis te modelleren.

In de jaren 1970 was WSD een deeltaak van semantische interpretatie systemen ontwikkeld binnen het gebied van kunstmatige intelligentie, te beginnen met Wilks' voorkeur semantiek. Aangezien WSD-systemen in die tijd echter grotendeels op regels gebaseerd en met de hand gecodeerd waren, waren zij gevoelig voor een knelpunt bij de verwerving van kennis.

Tegen de jaren tachtig kwamen grootschalige lexicale bronnen, zoals het Oxford Advanced Learner's Dictionary of Current English (OALD), beschikbaar: handmatige codering werd vervangen door automatisch uit deze bronnen geëxtraheerde kennis, maar disambiguatie was nog steeds op kennis of woordenboeken gebaseerd.

In de jaren 1990 heeft de statistische revolutie de computationele linguïstiek vooruit geholpen, en WSD werd een paradigma probleem waarop gesuperviseerde machine learning technieken werden toegepast.

In de jaren 2000 bereikten gesuperviseerde technieken een plateau in nauwkeurigheid, en dus verschoof de aandacht naar grovere zinnen, domeinaanpassing, semi-supervised en unsupervised corpusgebaseerde systemen, combinaties van verschillende methoden, en de terugkeer van kennisgebaseerde systemen via grafiekgebaseerde methoden. Toch blijven systemen onder toezicht het best presteren.

Referenties[bewerken | brontekst bewerken]

  1. Weaver, Warren (1949). "Translation". In Locke, W.N.; Booth, A.D. (eds.). Machine Translation of Languages: Fourteen Essays. Cambridge, MA: MIT Press.
  2. Bar-Hillel 1964, pp. 174–179.