Naar inhoud springen

Gebruiker:Sophievanogtrop/Kladblok

Uit Wikipedia, de vrije encyclopedie

Alpino (parser)[bewerken | brontekst bewerken]

Alpino is de automatisch zinsontleder voor het Nederlands van de Rijksuniversiteit Groningen. De grens van 90% foutloos ontleden door het programma is al bereikt.[1] Een parser is een ontleder. Het systeem van Alpino bestaat uit de volgende onderdelen:

  • HPSG grammatica voor het Nederlands
  • Uitgebreid woordenboek (> 100, 000 ingangen)
  • POS-tagger voor efficiëntie
  • Disambiguatie met Maximum Entropy model
  • Construeert CGN dependentiestructuren [2]

De software wordt gepubliceerd onder de voorwaarden van de Gnu Lesser General Public License.


Alpino is gemaakt aan de RUG met als initiatiefnemer Gertjan van Noord, hoogleraar Taaltechnologie aan de Rijksuniveriteit Groningen. Alpino weet door veel Nederlandse teksten, van bijvoorbeeld Wikipedia en Einhoven corpus, te analyseren nu welke woorden typisch als bijvoorbeeld een onderwerp bij een werkwoord voorkomen. De praktische toepassingen van een automatische zinsontleder als Alpino zijn talloos. [1]

Syntactische annotatie met Alpino[bewerken | brontekst bewerken]

Alpino kan worden gebruikt voor semi-automatische syntactische annotatie. Dit is het gedeeltelijk geautomatiseerd genereren van verklarende aantekeningen m.b.t. de opbouw en structuur van zinsdelen en zinnen. Er worden hierbij meerdere tools beschikbaar gesteld, namelijk:

  • Parse selectie tool
  • POS-tag selectie tool
  • Haakjes in de input
  • Bekijken en bewerken van dependentiestructuren (THISTLE)
  • Zoeken naar syntactische patronen (XPATH) [2]

Alpino treebank[bewerken | brontekst bewerken]

De nauwkeurigheid en dekking van de grammatica wordt beoordeeld op representatieve gedeelten van de Alpino treebank en een aantal problematische constructies voor de huidige grammatica zijn geïdentificeerd. De Alpino treebank bevat syntactisch geannoteerde Nederlandse zinnen. De Alpino treebank bestaat uit onder andere de syntactische annotatie van al de 7154 zinnen uit het cdbl deel van het Eindhoven corpus. De Alpino Treebank verscheen op CDROM ter gelegenheid van CLIN 2002 in Groningen. [3]

Referentielijst[bewerken | brontekst bewerken]

  1. a b Erica Renckens, Bekijk: Mens en computer ontleden even goed. NEMOKennislink. Geraadpleegd op 23 september 2022.
  2. a b poster.pdf (rug.nl)
  3. van Noord, Gertjan, Gosse Bouma, Leonoor van der Beek (2005). Een brede computationele grammatica voor het Nederlands. RUG 2005