Wikipedia:De kroeg/Archief/20170513

A bot to combat en:WP:LINKROT (Deploy InternetArchiveBot to nlwiki)[bewerken | brontekst bewerken]

Hello everyone of the Dutch Wikipedia. I am Cyberpower678, a bot operator on the English Wikipedia. I am reaching out to the content editors of this Wikipedia, in regards to the mentioned Phabricator tasks listed on the right. T120433 is a tracking ticket for an ongoing bot project to combat dead links constantly surfacing in hundreds of thousands of articles. This ticket was opened as a result of being the number one requested bot on the m:2015 Community Wishlist Survey, and can be found here. I am currently the lead developer of this bot project, and with the bot ready for deployment onto other wikis, I am asking Cebuano Wikipedians if the welcome such a bot. The Phabricator task that tracks this project is T120433.

The specific ticket for deploying this bot to the Dutch Wikipedia is T136148. The first step is gaining community consensus, through this proposal, and then adapting the bot to suit the needs of this wiki.

What does this bot do?[bewerken | brontekst bewerken]

This bot is very functional, configurable, and very intelligent. The bot comes with a run page, that allows for the quick disabling of the bot, in the event of a malfunction. Every wiki will also have a config page, that directs the bot how to behave on that wiki. On the English Wikipedia, the bot is able to scan existing URLs and detect if they are dead or not. During trial testing, this has revealed to have a false positive rate of 0.1%. The reliability rate is now even better, than during the initial trial The bot is capable of replacing original URLs with archive URLs, or adding them on. It is able to read sources and citations formatted in various ways and either intelligently fix the source as needed or make the formatting consistent, by altering the way the source is formatted. InternetArchiveBot, can leave a talk page message with details of what it did to the article page. The configuration page also has an option to only leave messages and not touch the main article at all. InternetArchiveBot is {{nobots}} compliant and also supports a blank tag used on the English Wikipedia, {{cbignore}}, which instructs the bot to ignore a specific source on a page.

What wikis support this?[bewerken | brontekst bewerken]

It's currently fully operational on the English and Swedish Wikipedias.

Some examples: [1][2][3][4]

—CYBERPOWER (overleg) 20 apr 2017 03:23 (CEST)[reageren]

Discussion[bewerken | brontekst bewerken]

@Smile4ever: - jouw expertise! ed0_verleg 20 apr 2017 13:43 (CEST)[reageren]

Hi Cyberpower678, I have seen your work on other projects and you have a very good reputation with bot work. I am fully in favor of having this proces automated. Our common proces for requesting a controversial bot run (and also for asking bot rights in general) is a request at WP:AB, preceded by 50-100 test edits on nl.wikipedia to make it easy for us to see if it works. A test is generally not a problem and we can decide afterwards. Sincerely, Taketa (overleg) 20 apr 2017 13:57 (CEST)[reageren]

Full support here! Would love to see a bot doing these edits!

Freaky Fries _(Overleg) 20 apr 2017 14:05 (CEST)[reageren]

Hi Cyberpower678, that would be a very useful task to do. Thanks for offering! Just one thing, from the examples you gave I see your bot is using the Wayback Machine and WebCite. There's also a lesser-known internet archive, Archive.is, I'm using when the Wayback Machine doesn't have the page I'm looking for archived. Just a humble suggestion, maybe you can consider to add that archive to your bot too? It can come in very handy when the Wayback Machine fails to do the job. Kind regards, Matroos Vos (overleg) 20 apr 2017 15:32 (CEST)[reageren]

The bot recognizes that as an archive, but doesn't actually call archive.is for it. This is because archive.is is hugely unreliable for automated archive snapshot retrieval and because there is no API I can find for it. Archive.is and WebCite is something left for humans to use and add. However, if archive URLs for a given URL is found on Wikipedia, it will save that and use it for future use.—CYBERPOWER (overleg) 20 apr 2017 18:38 (CEST)[reageren]

Ah, I see. Nonetheless, thanks again for your generous offer. It's still highly appreciated! Kindest regards, Matroos Vos (overleg) 20 apr 2017 19:48 (CEST)[reageren]

Hi. I wrote Get Archive which supports archive.is. If you go to https://archive.is/http://adeadlink.org/dead/link it offers a page with results or a message "No results". In Get Archive, I use the DOM to find the URL I'm looking for. I will send you a message on your English talk page to clarify things further. Kind regards,

4ever_(Overleg) 20 apr 2017 19:21 (CEST)[reageren]

I will welcome the bot with open arms. Currently I do link maintenance manually using Get Archive (addon for Firefox). I mainly use archive.org and archive.is, since WebCite doesn't offer many archived pages (in my experience). Please go ahead, Cyberpower678. Kind regards,

4ever_(Overleg) 20 apr 2017 18:41 (CEST)[reageren]

Hoe minder we aan bots overlaten hoe groter de kans dat we ooit op een dag werkelijk een encyclopedie worden. Het is helemaal geen probleem als een link niet meer werkt, het repareren daarvan wekt de, foute, suggestie dat als er maar een werkende link staat de informatie wel zal kloppen. Er komt vrees ik een dag dat ook dat door een bot wordt vastgesteld. Lemma's moeten worden gecontroleerd nadat ze zijn aangemaakt. Dan moet iemand met kennis van zaken nagaan of wat er staat klopt en in lijn is met de stand der wetenschap. Als dat gebeurt dan is zo'n niet werkende link geen probleem. De suggestie dat je de encyclopedie werkelijk verder helpt door zo'n link na een paar jaar weer te repareren is een valse. Wat mij betreft moeten we die kant niet opgaan. Peter b (overleg) 22 apr 2017 13:33 (CEST)[reageren]

Hoe meer we aan bots overlaten wat bots goed kunnen doen, hoe beter de kwaliteit wordt van Wikipedia, omdat gebruikers dan minder onnodig hoeven te zoeken naar de juiste links en info. Bezoekers en bewerkers kunnen dan sneller en eenvoudiger links aanklikken en controleren of de betreffende pagina inderdaad die informatie toonde als waarvoor een externe link was toegevoegd. Te vaak vormen niet werkende links wél een probleem: gebruikers die ten onrechte dode links weghalen en niet kijken of die link niet in de Internet Archive of ergens anders gearchiveerd is. Als ten onrechte links worden weggehaald zou ik dat onder onbedoeld vandalisme willen scharen, omdat daarmee ten onrechte de indruk wordt gewekt dat een artikel op geen of minder bronnen gebaseerd is, terwijl er wel degelijk bronnen waren gebruikt. Het repareren van links is een grote hulp om Wikipedia onderhouden te houden en niet te laten wegzakken tot een website waarvan uiteindelijk duizenden links niet meer werken. Dat het niet repareren niet zou helpen is een valse suggestie. Al jaren wordt er hard gewerkt door met name Smile4ever en andere gebruikers om linkrot tegen te gaan en hij draagt daarmee op grote schaal goed bij aan Wikipedia.

Wat mij betreft is de taak van deze bot bovendien nog veel te beperkt. Om te zorgen dat we (vrijwel) altijd kunnen terugvallen op gearchiveerde internetpagina's denk ik dat het goed zou zijn als er een bot zou komen die toegevoegde externe links naar bronnen en referenties zou archiveren in de Internet Archive (als dat nog niet het geval was), zodat we later altijd kunnen terugkijken wat iemand als bron heeft gebruikt, ook al is de website verdwenen. Romaine (overleg) 22 apr 2017 13:57 (CEST)[reageren]

Het aanklikken van een link als controle is jezelf voor de gek houden. Als je geen idee hebt waarover het lemma gaat dan moet je dat lemma niet controleren, als je dan wel dat linkje aanklikt dan heb je (g)een flauw idee of de link klopt, maar of het lemma klopt? Nee. Dan zeggen dat je daarmee de encyclopedie vooruit helpt is jezelf voor de gek houden. Dat systeem een air van kwaliteit meegeven door er een bot voor in te zetten maakt het alleen nog maar erger. Peter b (overleg) 22 apr 2017 14:58 (CEST)[reageren]

Ik ben het helemaal met Peter b eens dat een goede encyclopedie in de eerste plaats intelligente, kritische, ter zake kundige medewerkers nodig heeft. Maar nu juist daarom zou het prachtig zijn als al die medewerkers hun tijd dan ook volledig in een creatieve bijdrage zouden kunnen steken, terwijl die archiefbot intussen het wat dommere werk doet. Zo'n archiefbot doet niks anders dan constateren dat een internetbron niet meer op zijn oorspronkelijk plek staat, en geeft aan waar deze eventueel nog wel in het internetarchief te vinden is. Een geestdodende hel als je al die miljoenen links handmatig zou moeten controleren en zo nodig corrigeren, maar een peulenschilletje voor zo'n digitaal monstertje. In de bibliotheek zit toch ook niemand meer fiches met de hand te schrijven?

Zo'n gecorrigeerde link is nu juist bij uitstek handig als je bij een al wat ouder lemma wilt controleren of de opgevoerde internetbronnen destijds wel juist geïnterpreteerd zijn. Bovendien is het gewoon een service voor onze lezers, want die willen we natuurlijk als het even kan probleemloos werkende links bieden. En dat linkrot een enorm probleem is was anderhalf jaar geleden bijvoorbeeld nog in een artikel in Trouw te lezen, dat zich baseerde op de Belgische wiskundige en computerwetenschapper Herbert Van de Sompel: "Hij ontdekte dat na een jaar al 10 tot 15 procent van de links waarnaar in wetenschappelijke publicaties wordt verwezen, dood zijn. 'Bij een paper van vijf jaar geleden werkt gemiddeld genomen 40 procent van de verwijzingen niet meer', aldus Van de Sompel. Het web rot dus langzaam weg." Wat mij betreft is het dus een ware zegening dat die archiefbot al die dode links weer tot leven kust. Matroos Vos (overleg) 22 apr 2017 20:46 (CEST)[reageren]

Peter b en Romaine hebben beiden een beetje gelijk. Je kunt bots aan het werk zetten om echt foute en/of onbereikbare links te constateren, maar niet of nauwelijks om te zien of ze ook inhoudelijk helemaal kloppen. Dat kan alleen iemand die voldoende materiekennis heeft. Dat geldt niet alleen voor in- en externe links, maar ook voor artikelen en vooral lijsten. De laatste hebben de neiging snel te verouderen als een deskundige er niet periodiek haar of zijn licht over laat schijnen. Je kan ook als leek zien 'hee, ik denk dat hier iets mis is'. Ga dan op zoek naar een collega, familielid, vriend, boek, tijdschrift of website waarvan je vernoedt daar expertise over te hebben. Klaas `Z4␟` V: 23 apr 2017 11:39 (CEST)[reageren]

Als men een link aanklikt en deze blijkt dood te zijn, kan al helemaal niet worden vastgesteld of hier al dan niet een goede bron gebruikt is. Pieter2 (overleg) 26 apr 2017 23:16 (CEST)[reageren]

Via archiefwebsites zoals hierboven aangehaald kan dat dus wel. --bdijkstra (overleg) 26 apr 2017 23:29 (CEST)[reageren]

Maar een gemiddelde gebruiker heeft daar dus de ballen verstand van. Pieter2 (overleg) 27 apr 2017 00:09 (CEST)[reageren]

Wat is je punt? We hebben informatiepagina's zoals Wikipedia:Onbereikbare externe links en overlegpagina's zoals deze om de 'gemiddelde gebruiker' te ondersteunen. --bdijkstra (overleg) 27 apr 2017 12:04 (CEST)[reageren]

Mijn punt is dat een gemiddelde gebruiker die een dode link opmerkt, zich niet druk zal maken op dat moment of deze onbruikbare link een goede bron zal hebben. Maar vervolgens een andere link zal proberen of het hele zootje voor gezien zal houden. Pieter2 (overleg) 27 apr 2017 23:46 (CEST)[reageren]

Automatisch archiveren[bewerken | brontekst bewerken]

Wat Romaine hier schrijft over automatisch archiveren, is op de Franse Wikipedia al volop in gebruik. Iedere link die daar wordt toevoegt wordt via de gadget ArchiveLinks automatisch gearchiveerd in WikiWix. Het lijkt mij een zeer nuttige aanvulling voor de Nederlandstalige Wikipedia. Met vriendelijke groet, RonnieV (overleg) 28 apr 2017 12:47 (CEST)[reageren]

Dat lijkt me inderdaad een uiterst nuttige aanvulling. Het is vaker geopperd (eerder dit jaar bijvoorbeeld door ed0), en toen leek het me ook al een prachtig plan. Het enige bezwaar dat ik toen kon verzinnen was dat het veel serverruimte, dus veel geld, zou kunnen gaan kosten. Wellicht dat zo'n plan daarom eerst goedgekeurd moet worden door onze schatbewaarder in Utrecht? Als we elke nieuwe link automatisch laten archiveren door het Internet Archive hebben we dat financiële probleem natuurlijk niet, maar dan zijn we weer wel afhankelijk van een externe partij. Matroos Vos (overleg) 5 mei 2017 15:40 (CEST)[reageren]

Als het wilt archiveren door de mensen die ook de software achter Wikipedia maken, dan heb je de verkeerde schatbewaarder voor je. Dan moet je bij deze schatbewaarder zijn. Mbch331 (Overleg) 5 mei 2017 19:46 (CEST)[reageren]