Wikipedia:GLAM/Koninklijke Bibliotheek en Nationaal Archief/Resultaten/KPIs/KPI10
Uiterlijk
Nieuws | Over onze samenwerking met Wikimedia | Projecten | Evenementen & bijeenkomsten | KPIs | Archief (2013-2014) | Alle pagina's |
Overzicht KPIs | Waarom wij KPIs meten | KPI 2 | KPI 4 | KPI 8 | KPI 5 | KPI 9 | KPI 10 | Publicaties | Verouderde KPIs |
KPI 10: Het gebruik van KB-identifiers in Wikidata, en vice versa[bewerken | brontekst bewerken]
Wat meten we?[bewerken | brontekst bewerken]
We meten 4 dingen, zowel absoluut als procentueel:
- Het aantal Wikidata-items dat een NTA-identificatiecode (P1006) heeft
- Het aantal links naar Wikidata in de Nederlandse Thesaurus van Auteursnamen (NTA)
- Het aantal Wikidata-items dat een DBNL-identificatiecode voor auteurs (P723) heeft
- Het aantal links naar Wikidata in de Thesaurus Auteurs DBNL
Waarom meten we deze KPI?[bewerken | brontekst bewerken]
We meten deze KPI omdat we willen weten
- Hoe vaak de KB (d.m.v. de NTA- en DBNL-thesauri) optreedt als autoriteit over personen/auteurs in Wikidata (en daardoor ook in Wikipedia)
- Hoe vaak Wikidata gebruikt wordt als autoriteit over personen/auteurs in de twee genoemde KB-thesauri
We meten alleen deze twee, omdat er binnen Wikidata (op dit moment nog) geen andere eigenschappen/identifiers bestaan die 1-op-1 gekoppeld zijn aan KB-diensten.
Hoe meten we?[bewerken | brontekst bewerken]
- 1) Het aantal Wikidata-items dat een NTA-identificatiecode (P1006) heeft
- We gaan er vanuit dat elk Wikidata-item precies 1 link naar de NTA bevat. Waar dit niet het geval is, zal de KB zich actief inzetten om deze afwijkingen strak te trekken.
- Absoluut: In https://www.wikidata.org/wiki/Property_talk:P1006 wordt onderaan de pagina, in het veld "Current uses", het actuele absolute aantal Wikidata-items dat de P1006-eigenschap heeft weergegeven.
- Procentueel: Het actuele totaal aantal Wikidata-items over personen is ook bekend, dus het procentuele cijfer is ook eenvoudig te bepalen.
- 2) Het aantal links naar Wikidata in de Nederlandse Thesaurus van Auteursnamen (NTA)
- We gaan er vanuit dat elk NTA-item precies 1 link naar Wikidata bevat. Waar dit niet het geval is, zal de KB zich actief inzetten om deze afwijkingen strak te trekken.
- Absoluut: we voeren onderstaande query in de SPARQL-zoekinterface van data.bibliotheken.nl uit:
SELECT count(?nta) as ?aantal WHERE { ?nta schema:mainEntityOfPage/schema:isPartOf <http://data.bibliotheken.nl/id/dataset/persons> . ?nta schema:sameAs ?wikidata . FILTER(regex(?wikidata, 'wikidata', 'i')) }
- Procentueel: Het actuele totaal aantal NTA-items is ook bekend (kijk onderaan bij Inverse relaties --> is schema:isPartOf van --> reources), dus het procentuele cijfer is ook eenvoudig te bepalen.
- Om precies te zien welke NTA-items een Wikidata-link bevatten, doen we onderstaande query: (we zien de eerste 1000, haal 'LIMIT 1000' weg om alle resultaten te zien, kan dan wel even duren)
SELECT * WHERE { ?nta schema:mainEntityOfPage/schema:isPartOf <http://data.bibliotheken.nl/id/dataset/persons> . ?nta rdfs:label ?ntaLabel. ?nta schema:sameAs ?wikidata . FILTER(regex(?wikidata, 'wikidata', 'i')) } LIMIT 1000
- 3) Het aantal Wikidata-items dat een DBNL-identificatiecode voor auteurs (P723) heeft
- We gaan er vanuit dat elk Wikidata-item precies 1 link naar de DBNL-auteursthesaurus bevat. Waar dit niet het geval is, zal de KB zich actief inzetten om deze afwijkingen strak te trekken.
- Absoluut: In https://www.wikidata.org/wiki/Property_talk:P723 wordt onderaan de pagina, in het veld "Current uses", het actuele aantal Wikidata-items dat de P723-eigenschap heeft weergegeven
- Procentueel: Het actuele totaal aantal Wikidata-items over personen is ook bekend, dus het procentuele cijfer is ook eenvoudig te bepalen.
- Noot: er loopt binnen de Wiki-gemeenschap een langdurige campagne om (d.m.v. de zgn. Mix'n'Match-tool) zowel automatisch als handmatig DBNL-auteursidentificatiecodes aan meer Wikidata-items toe te voegen.
- 4) Het aantal links naar Wikidata in de Thesaurus Auteurs DBNL
- We gaan er vanuit dat elk DBNLauteurs-item (via de NTA) precies 1 link naar Wikidata heeft. Waar dit niet het geval is, zal de KB zich actief inzetten om deze afwijkingen strak te trekken.
- Absoluut: De DBNL-auteursthesaurus bevat geen directe links naar Wikidata, maar wel naar de NTA (zie deze sparql-query). De NTA bevat op zijn beurt dan wel directe links naar Wikidata, zie bij 2). M.a.w., we gebruiken de NTA dus als tussenstap om het aantal DBNL-personen met een (indirecte) Wikidata-link te meten. We voeren daartoe onderstaande query in de SPARQL-zoekinterface van data.bibliotheken.nl uit:
SELECT count(?nta) as ?aantal WHERE { ?dbnl schema:mainEntityOfPage/schema:isPartOf <http://data.bibliotheken.nl/id/dataset/dbnla> . ?dbnl owl:sameAs ?nta . ?nta schema:mainEntityOfPage/schema:isPartOf <http://data.bibliotheken.nl/id/dataset/persons> . ?nta schema:sameAs ?wikidata . FILTER(regex(?wikidata, 'wikidata', 'i'))}
- Procentueel: Het actuele totaal aantal DBNLauteurs-items is ook bekend (kijk onderaan bij Inverse relaties --> is schema:isPartOf van --> reources), dus het procentuele cijfer is ook eenvoudig te bepalen.
- Om de exacte concordantie tussen DBNL, NTA en Wikidata te zien, doen we de volgende query: (we zien de eerste 1000, haal 'LIMIT 1000' weg om alle resultaten te zien, kan dan wel even duren)
SELECT * WHERE { ?dbnl schema:mainEntityOfPage/schema:isPartOf <http://data.bibliotheken.nl/id/dataset/dbnla> . ?dbnl rdfs:label ?dbnlLabel. ?dbnl owl:sameAs ?nta . ?nta schema:mainEntityOfPage/schema:isPartOf <http://data.bibliotheken.nl/id/dataset/persons> . ?nta rdfs:label ?ntaLabel. ?nta schema:sameAs ?wikidata . FILTER(regex(?wikidata, 'wikidata', 'i')) } LIMIT 1000
Historische ontwikkeling van KPI 10[bewerken | brontekst bewerken]
Onderstaande tabel laat de historische ontwikkeling van KPI 10 zien, met verwijzingen naar de meer detailleerde onderliggende cijfers.
Datum meting | Opmerkingen | Aantal Wikidata-items met een NTA-identificatiecode (P1006) | Aantal links naar Wikidata in de NTA | Aantal Wikidata-items met een DBNLa-identificatiecode (P723) | Aantal links naar Wikidata in de DBNL auteursthesaurus | Details |
---|---|---|---|---|---|---|
07-02-2020 | eerst meting van KPI10 volgens bovenstaande methode | 393.094 | 385.635 | 17.014 | 13.306 | Details |
20-05-2020 | Door een actie van Multichill n.a.v. discussie zijn er op Wikidata (via P1006) 75.000 koppelingen met personen uit de Nederlandse Thesaurus van Auteursnamen (NTA) bijgekomen. | 475.890 | 385.635 | --- | -- | Details |
07-09-2020 | 480.304 | 385.635 | 22.764 | 13.306 | Details | |
19-01-2021 | 486.824 | 385.945 | 21.108 | 13.306 | Details | |
10-05-2021 | In mei 2021 heeft de KB een synchronisatie uitgevoerd van Wikidata-identifiers in de NTA: hierbij zijn 50.000+ nieuwe Wikidata-identifiers aan de NTA toegevoegd. | 493.686 | 452.514 | 21.446 | 13.592 | Details |
22-07-2021 | 497.354 | 452.514 | 24.852 | 13.592 | Snelle tussenmeting, geen details beschikbaar | |
13-01-2022 | 512.631 | 499.329 | - | - | Snelle tussenmeting, geen details beschikbaar | |
02-11-2023 | 550.258 | 499.346 | 30.969 | 14.509 | Tussenmeting, geen details beschikbaar |
Analyse[bewerken | brontekst bewerken]
Nog te doen...
Aanbevelingen[bewerken | brontekst bewerken]
Kijkend naar deze metingen, kunnen we de volgende voortdurende aanbevelingen doen:
- Pak als KB een actieve en leidende rol op Wikidata rondom deze twee thesauri: ondanks dat de NTA en DBNL-thesauri KB-diensten zijn, is het toevoegen van NTA en DBNL-links aan Wikidata grotendeels door het initiatief en de inzet van de Wikidata-gemeenschap gebeurd. De KB kan daar een actievere en meer sturendend rol in spelen, om kwaliteitsbewaking te verbeteren en achterstanden in de synchronisatie weg te werken.
- Synchroniseer de KB-thesuari met Wikidata (en vv.): Er is een verschil tussen 1) de NTA en Wikidata en 2) de DBNLa en Wikidata.
- Voorzie meer bestaande Wikidata-items van een NTA en/of DBNL-link: Er is zowel absoluut als procentueel nog veel ruimte om de koppeling tussen bestaande Wikidata-items en de NTA/DBNL-personen te vergroten.
- Voor de DNBL is dat relatief eenvoudig: gebruik Mix'n'Match om zoveel mogelijk van de nog niet gekopplede DBNL-auteurs aan Wikidata te koppelen en/of de voorgestelde koppelingen te controleren.
- Bovendien krijgen jaarlijks tienduizenden personen een eigen (nieuw) Wikidata-item, dus de KB moet periodiek zoveel mogelijk NTA en/of DNBL-links aan nieuwe Wikidata-items toevoegen. Dit geldt ook andersom, dus voorzie meer NTA en/of DBNL-items van een Wikidata-link.
- Verbeter de bestaande afwijkingen: los op Wikidata de Single value violations, de Unique value violations en de mismatches op Property_talk:P1006/Mismatches op. Dit vergt niet alleen werk aan Wikidata, maar (waarschijnlijk) ook aan de NTA (en dus ook de KB-catalogus) en aan de DBNL-auteursthesaurus (en dus ook de DBNL-website). Dit is geen eenmalige actie, m.a.w. blijf de Wikidata-afwijkingen periodiek monitoren en corrigeren.