Wikipedia:Aanmelding botgebruikers

Uit Wikipedia, de vrije encyclopedie
Dit is een oude versie van deze pagina, bewerkt door Edoderoo (overleg | bijdragen) op 1 okt 2021 om 14:41. (→‎Archieflinks toevoegen)
Deze versie kan sterk verschillen van de huidige versie van deze pagina.
Zie WP:AB


Overzicht beheerpagina's

Nieuwe aanmeldingen / New requests

Afgehandelde verzoeken / Old requests

Verwijderen botbit / Removal of a bot flag

Voor verwijdering van een botbit volstaat een enkelvoudig verzoek aan een bureaucraat. For removal of a bot flag a single request to a bureaucrat is sufficient.

Verzoeken mogelijk controversiële wijzigingen / Request possible controversial changes

Bot die wijst op aanleg dp

In november 2018 is in het Doorverwijscafé een peiling gehouden over de gewenstheid van een bot die gebruikers erop wijst dat ze een link hebben aangelegd naar een doorverwijspagina. Daarvoor was groot draagvlak, althans onder de gebruikers die meededen. Het bijbehorende botverzoek heb ik toen afgewezen, want we waren aan het wachten op een script van Enwiki, en anders zouden we zelf het wiel opnieuw moeten uitvinden. Ik begin nu echter Python te ontdekken, en het is me gelukt, aan de hand van WP:LND/D:

  • Voor elke dp genoemd aldaar:
    • Voor alle inkomende links op die dp:
      • Is de inkomende link niet zelf ook een dp?
        • Is de inkomende link géén redirect en niet van het soort zoals Amsterdam die verwijst naar Amsterdam (doorverwijspagina)?
          • Kijk of het artikel nog steeds linkt naar de dp (misschien is hij alweer weggehaald, of opgelost door iemand anders). Dit moet in de brontekst, want de dp-link kan ook komen vanuit een aldaar gebruikt sjabloon. Zoja:
          • Kijk in de brontekst van de vorige versies, totdat de link niet meer voorkomt. In de versie daarna is de link dus toegevoegd.
          • Is die bewerking recenter dan de een-na-laatste update van WP:LND/D, aan de hand van het oldid (anders krijgt de gebruiker het bericht steeds weer na elke update van WP:LND/D)? Zoja:
          • Onthoud ergens dat gebruiker G een link heeft aangelegd in artikel A naar dp D. De gebruiker krijgt zo uiteindelijk één bericht met daarin alle toegevoegde dp-links.
        • Is de inkomende link wél een redirect?
          • Voor alle inkomende links op die redirect:
            • Doe hetzelfde als hiervoor, maar dan voor de titel van de redirect. In het bericht aan de gebruiker kunnen we dan toevoegen "(via redirect R)".
  • Stuur de berichten naar de betreffende gebruikers.

Ik start het script zelf op, waarna het één keer Wikipedia:Links naar doorverwijspagina's/data afloopt (dit duurt circa een uur + 1 minuut per bericht) en vervolgens stopt. Ik ben er dus zelf bij.

Op 20 juni heb ik hiervoor nogmaals aandacht gevraagd: zie Wikipedia:Doorverwijscafé#Bot die wijst op aanleg dp. Enkele dagen later heb ik hiervoor aandacht gevraagd op Wikipedia:Overleg gewenst#Bot die wijst op aanleg dp, zodat iedereen er kennis van kan nemen en kan meedenken. Toen heb ik de opt-out anders geregeld dan ik eerst in gedachten had: dit gaat nu met {{bots|deny=Dpmelderbot}}. Daarom draait het script onder een apart account: Dpmelderbot (overleg | bijdragen | verwijderde bijdragen | massaal verwijderen | logboek | blokkeren). Een botbit is wmb niet nodig, want het gaat om 10 à 20 berichten per dag; dat kan prima met de toegestane snelheid van 1 bewerking per minuut.

Na finetunen had ik vandaag mijn eerste run gestart die ook de berichten plaatst, zie de link naar de bijdragen hierboven, waarna de bot geblokkeerd werd. Bij die bijdragen staan dus enkele berichten die al wel verstuurd waren. Is dit voldoende om deze berichten weer te mogen plaatsen? Wikiwerner (overleg) 27 jun 2021 15:05 (CEST)[reageren]

Dit klinkt om eerlijk te zijn niet heel erg duurzaam. Waar is de broncode gepubliceerd? Staat deze op GitHub bijvoorbeeld? Is Help:Toolforge/Developing successful tools gevolgd? Natuur12 (overleg) 27 jun 2021 15:47 (CEST)[reageren]
Nee, ik heb het script zojuist geplaatst op Gebruiker:Dpmelderbot/dpmeldingen.py, net zoals diverse scripts op Gebruiker:Edoderoobot. Wikiwerner (overleg) 27 jun 2021 21:12 (CEST)[reageren]
Ik ben geen Python-expert maar gelukkig hebben we tegenwoordig interfacemoderatoren dus heb ik Bas dehaan kort om advies gevraagd. Op basis van zijn advies de volgende punten, het script houdt geen rekening met verborgen/geoversighte gebruikersnamen. De tekst die de bot plaatst is vrij lang, mogelijk is het daarom handig om gebruik te maken van een subst: sjabloon. Dat gezegd hebbende, nu opgehelderd is dat het niet om een volautomatische bot gaat maar vooralsnog om een semiautomatische is dat minder een issue. (Ik neem aan dat je niet het script laat lopen om 3 uur in de nacht, daarna naar bed gaat en dat we de volgende morgen constateren dat de bot in een serie endless loops terecht is gekomen waarna we een giga puinzooi hebben). Dus ik zal de bot deblokkeren. Natuur12 (overleg) 27 jun 2021 22:35 (CEST)[reageren]
Aha, bedankt! Dat zijn twee leerzame tips. Zo zien we maar: het is beter om niet meteen alles internationaal beschikbaar te maken. 's Nachts draaien met zoiets nieuws zou ik nooit doen. Dat is ook tegen de regel dat de botbeheerder beschikbaar moet zijn voor overleg of om de bot te stoppen. Wikiwerner (overleg) 27 jun 2021 23:06 (CEST)[reageren]

Spaties verwijderen voor referentie

Per bovenstaande discussie lijkt er wel enige steun voor spaties verwijderen vóór referenties. Dus bij deze wil ik dat voorstellen. Het gaat om zo'n 23.000 pagina's. In essentie gaat het om de volgende code:

if re.search("[^\n\|\s]\s<ref[^<>]*?>", live_text):
    live_text = re.sub(r"([^\n\|\s])(\s)(<ref[^<>]*?>)", r"\1\3", live_text)

Het verwijdert alleen een spatie als het niet voorafgegaan wordt aan een andere whitespace, een newline of een verticaal teken (ivm tabellen). Dit zijn de uitzonderingen die ik kon bedenken, mochten mensen er meer weten, dan hoor ik het graag. Dajasj (overleg) 26 aug 2021 11:57 (CEST)[reageren]

Opmerking Opmerking Aanvullend is de vraag, is het wenselijk dat een eventuele opdracht altijd pagina's hiermee opspoort en bijwerkt, of alleen als de pagina toch al bijgewerkt wordt voor een grotere botbewerking? Dajasj (overleg) 26 aug 2021 12:04 (CEST)[reageren]
Graag alleen als een pagina ook inhoudelijk bijgewerkt wordt. AWB heeft ook een dergelijk onderhoudsscript, dat met andere wijzigingen gelijk dit soort attenties meeneemt. Ciell need me? ping me! 27 aug 2021 10:18 (CEST)[reageren]
Steun Steun Als ik zo'n geval opmerk, zal ik het ook altijd corrigeren. The Banner Overleg 26 aug 2021 22:17 (CEST)[reageren]

Leestekens aan weerszijden van referentie

5.000 pagina's hebben referenties waar aan weerszijden een leesteken staat (dus: .[1].), niet gescheiden door een spatie. Ik zou die willen verwijderen met de volgende code:

if re.search("([\.\,\!\?\;])(<ref[^<>]*?>[^<>]*?</ref>)([\.\,\!\?\;])", live_text):
    live_text = re.sub(r"([\.\,\!\?\;])(<ref[^<>]*?>[^<>]*?</ref>)([\.\,\!\?\;])", r"\1\2", live_text)

Deze is wellicht wat controversiëler, omdat standaard alleen het leesteken voor de referentie behouden wordt, niet die erna. Het lijkt mij alsnog een verbetering, maar kan me voorstellen dat daar bezwaar tegen is. Ik hoor het graag. Ook voor deze geldt overigens de vraag of het op zichzelf een bewerking vereist, of alleen deel van grotere. Dajasj (overleg) 26 aug 2021 12:32 (CEST)[reageren]

Ook alleen samen met ander algemeen onderhoud ajb. Ciell need me? ping me! 27 aug 2021 10:20 (CEST)[reageren]

Archieflinks toevoegen

Na het verzoek van Ciell voor een bot die archieflinks toevoegt, wil ik dit voorleggen aan de gemeenschap. De code hiervoor is te vinden op Gebruiker:DajasjBot/archivelinks.py. Ik zou graag binnenkort willen beginnen met testen. Dat wil zeggen dat ik niet meer automatische bewerkingen doe dan ik handmatig diezelfde dag kan controleren. Zo kan ik op een iets grotere schaal controleren of dit script werkt naar behoren, in alle gevallen. Op langere termijn zou ik dit op grotere schaal willen doen, als duidelijk is dat de bot goed functioneert. Desgewenst kan ik daar ook nog op later moment apart toestemming voor vragen. Alvorens hiermee te beginnen met testen wil ik echter dit voorleggen aan jullie. Als er bezwaren zijn, hoor ik die graag. Dan zal ik het testen/gebruik van bot uitstellen danwel niet doen. Dajasj (overleg) 27 aug 2021 00:02 (CEST)[reageren]

Ik kan je botscript niet beoordelen, maar zie uit naar 2-3 proefedits. Ciell need me? ping me! 27 aug 2021 10:22 (CEST)[reageren]
Hoi @Ciell:, dank voor je reactie. Zie hier, hier en hier. Dajasj (overleg) 27 aug 2021 11:06 (CEST)[reageren]
Dank Dajasj! Bij link 1 naar Alpen zie ik dat deze en deze, beide links die je probeerde in te voegen dus, nog niet goed gaan. De tweede archivering voor Groen (partij) lijkt me in orde. Bij je derde voorbeeld gaat deze mis, misschien omdat het originele nieuwsartikel eindigt met een vraagteken. Dit zou je moeten kunnen omzeilen lijkt me. Ciell need me? ping me! 27 aug 2021 12:02 (CEST)[reageren]
Goed gespot. Wat betreft Alpen, ik zie waar dat misgaat en zal het oplossen! Precies de dingetjes die ik komende tijd wil uitvinden. Wat betreft die van Antwerpen. Op zich klopt de layout met wat ik handmatig vind in de archieven. Alleen de url is anders geworden tijdens de aanvraag via hun API. Zou je die dan niet geplaatst willen hebben? Dajasj (overleg) 27 aug 2021 12:20 (CEST)[reageren]
Inderdaad werkt hij handmatig wel, maar lezers die de bron willen raadplegen zullen meest van tijd waarschijnlijk niet snappen hoe ze dat handmatig kunnen doen denk ik? Ciell need me? ping me! 27 aug 2021 13:34 (CEST)[reageren]
Ik snap misschien je vraag niet helemaal. Want wat ik handmatig ophaal en wat het botje heeft opgehaald is als resultaat hetzelfde toch? Behalve dus dat de url op onverklaarbare wijze veranderd is door de API van Internet Archive. Dajasj (overleg) 27 aug 2021 14:06 (CEST)[reageren]
@Ciell, zou je toevallig dit nog kunnen verduidelijken? :) Dan weet ik wat ik moet verbeteren! Dajasj (overleg) 25 sep 2021 12:39 (CEST)[reageren]
@Dajasj Link 3 gaat naar de archiveringspagina van 2017, waar het artikel nog niet te vinden is. Pas als je handmatig de archiveringsdatum van 2019 selecteert, kom je op het artikel dat gebruikt is als bron - dat was denk ik wat ik toen bedoelde. Misschien dat hij in 2017 al wel bestond op de website, maar ondertussen een nieuw plekje heeft gekregen op die site? De link naar de archivering van 2017 gaat in ieder geval naar een lege pagina.
Ik zie vandaag je bot voorbijkomen in mijn volglijst, en dat ziet er prima uit volgens mij. Dank!! Ciell need me? ping me! 28 sep 2021 20:33 (CEST)[reageren]
Ooo ik begrijp je punt! Wat ik nu doe is, ik kijk naar de bezochtdatum en selecteer het archief wat daar het dichstbij komt. In dit specifieke geval is dat onwenselijk gebleken, want er is een andere versie beter. Maar ik vrees dat er geen botmatige manier is om te controleren verder welke archiefversie het meest geschikt is. Ik vermoed dat IAB hetzelfde probleem heeft, maar zal dat nog even testen. Dajasj (overleg) 1 okt 2021 14:11 (CEST)[reageren]
Dat is zeker een algemeen probleem met The Wayback Machine. Soms slaat hij jaren enkel foutmeldingen op, of cookie-meldingen of popup-schermen van de persgroep. Wellicht kun je sommige er nog uitfilteren in je script, maar daar moet je dan echt even voor gaan zitten programmeren, met de wetenschap dat volgend jaar vergelijkbare issues met andere kenmerken naar voren komen. En bij websites die door de jaren heen vaak van layout veranderden, daarvan kan ook een mens soms niet beslissen "wat de beste versie was". Dat is immers een kwestie van smaak, en daar krijgen we op nl-wiki meestal slaande ruzie over ;-) Edoderoo (overleg) 1 okt 2021 14:41 (CEST)[reageren]
  1. test