Overleg:UTF-8

Pagina-inhoud wordt niet ondersteund in andere talen.
Onderwerp toevoegen
Uit Wikipedia, de vrije encyclopedie
Laatste reactie: 14 jaar geleden door Alex1 in het onderwerp UTF8/16 mismatch

Dit keer geen discussie over titelwijzigingen, maar wel iets wat met UTF-8 te maken heeft. Ik heb een bot gemaakt die HTML-tags zoals ë, ᫭, ω enz. kan vervangen in de bijbehorende UTF-8-tekens. Ik was eigenlijk al begonnen met het omzetten, maar plaats nu toch voor de zekerheid een berichtje in de kroeg, om discussies achteraf te voorkomen.

De voordelen:

  • Makkelijker te bewerken en te begrijpen voor niet-HTML-kenners (a la wiki).
  • Maakt artikelen iets korter qua aantal bytes. Dit kan tot ongeveer 400 tekens schelen in artikelen met veel interwiki's.

Het nadeel:

  • Mensen met een oude browser krijgen misschien bij sommige tekens vraagtekens of vierkantjes te zien. Dit zal alleen het geval zijn bij de wat meer "exotische" tekens.

Voor de duidelijkheid: het blijft gewoon mogelijk en toegestaan om de HTML-codes te gebruiken.

Tenzij er bezwaren komen ben ik van plan artikelen die in aanmerking komen te converteren naar UTF-8. Rex 5 jul 2005 01:16 (CEST)Reageren

Voorbeeldje Rex 5 jul 2005 01:17 (CEST)Reageren

Het gebruik van tekens die we niet kunnen lezen lijkt me zinloos. Ook is het een bezwaar dat je geen willekeurige andere editor kunt gebruiken. Dat doe ik regelmatig voor vervangopdrachten. Alex1 5 jul 2005 01:24 (CEST)Reageren
Alex, ik begrijp je argument dat je geen andere editor zou kunnen gebruiken niet helemaal. Zou je dat kunnen verduidelijken? Rex 5 jul 2005 10:52 (CEST)Reageren
Dat lijkt me vrij duidelijk. Hoeveel editors zijn er (zoals hieronder) met een optie de codering in te stellen? Danielm 5 jul 2005 11:07 (CEST) Reageren
Een voorbeeldje: als ik 11 oktober met mijn editor bewerk zien de interwiki's er na afloop zo uit:
[[af:11 Oktober]]
[[ast:11 d'ochobre]]
[[be:11 ???????????]]
[[bg:11 ????????]]
[[ca:11 d'octubre]]
[[cs:11. ríjen]]
[[csb:11 rujana]]
[[cy:11 Hydref]]
[[da:11. oktober]]
[[de:11. Oktober]]
[[el:11 ??t?ß????]]
[[en:October 11]]
[[eo:11-a de oktobro]]
[[es:11 de octubre]]
[[et:11. oktoober]]
[[eu:Urriaren 11]]
[[fi:11. lokakuuta]]
[[fo:11. oktober]]
[[fr:11 octobre]]
[[fy:11 oktober]]
[[gl:11 de outubro]]
[[he:11 ????????]]
[[hr:11. listopada]]
[[hu:Október 11]]
[[io:11 di oktobro]]
[[is:11. október]]
[[it:11 ottobre]]
[[ja:10?11?]]
[[ko:10? 11?]]
[[ku:11'ê kewçêrê]]
[[lb:11. Oktober]]
[[lt:Spalio 11]]
[[nb:11. oktober]]
[[nn:11. oktober]]
[[oc:11 d'octobre]]
[[pl:11 pazdziernika]]
[[pt:11 de Outubro]]
[[ro:11 octombrie]]
[[ru:11 ???????]]
[[simple:October 11]]
[[sk:11. október]]
[[sl:11. oktober]]
[[sr:11. ???????]]
[[sv:11 oktober]]
[[tl:Oktubre 11]]
[[tr:11 Ekim]]
[[tt:11. Öktäber]]
[[uk:11 ??????]]
[[wa:11 d' octôbe]]
[[zh:10?11?]]
Alex1 5 jul 2005 19:25 (CEST)Reageren
Als we al die tekens niet mogen gebruiken omdat jouw editor UTF-8 niet aan kan, hebben we vrij weinig aan de nieuwe codering. Rex 5 jul 2005 19:27 (CEST)Reageren
Ik zie geen reden om al die links halsoverkop te veranderen. Het gaat niet om leesbare tekst in het eigenlijke artikel. Daar is UTF-8 voor. Bovendien zie je toch de oude vorm als je met de muis de interwikilinks aanwijst. Alex1 6 jul 2005 23:14 (CEST)Reageren

Die html-rommel kunnen we toch ook niet lezen? Dat is volgens mij niet waar het om gaat. Känsterle 5 jul 2005 01:31 (CEST)Reageren

Van mij mag Rex gewoon doorgaan; zie ook Wikipedia:Problemen bij release MediaWiki 1.5 beta 1#.26xxx.3B-dingen_of_de_daadwerkelijke_tekens.3F. – gpvos (overleg) 5 jul 2005 02:10 (CEST)Reageren
Dat klopt, het is beide onleesbaar, maar wat er eerst stond blijft in elke editor onveranderd, dat is het verschil. Alex1 5 jul 2005 19:25 (CEST)Reageren

Alex1, je kunt in alle gangbare besturingssystemen gemakkelijk je toetsenbord-layout omzetten naar dat van een andere taal. Verder kun je gewoon de &xxx; dingen blijven gebruiken, de bot zal het echter af en toe weer omzetten naar leesbare tekens. Voor. -Lars- 5 jul 2005 13:02 (CEST)Reageren

MAC OS 9[brontekst bewerken]

Er is wel iets anders aan de hand. Dat mijn (oude) browser de bewuste lettertekens niet allemaal even fraai weergeeft (of zelfs helemaal niet) is mijn probleem, en daar kies ik voor. Maar ik merk ook dat ik bij het bewerken van pagina's met bepaalde codes (en ik denk dat het de UTF-8-codes zijn) de bewuste pagina's bederf. Als ik zo'n pagina opsla, staat er soms iets anders dan wat er eerst stond. Om diezelfde reden kan ik op de Hongaarse Wikipedia geen enkele pagina bewerken, want daar hebben ze me jaren geleden al op mijn onbedoelde vandalisme gewezen. Bij mijn standpunt in de titelwijzigings-discussie (pro!), ging ik ervan uit dat het technisch kon, maar het is eigenlijk toch de eerste vraag die beantwoord moet worden: is het wel echt zo dat Wikipedia door iedereen (dwz door alle browsers) bewerkbaar blijft? Of moeten gebruikers met oude browsers maar een nieuwe computer aanschaffen? Ik kan voor mezelf die de conclusie wel trekken (investeren of wegwezen), maar hoe voorkom je dat andere passanten onbedoeld vandalisme plegen? (ik heb zojuist zo'n bewerking gedaan, vandaar mijn punt hier). Fransvannes 6 jul 2005 16:04 (CEST)Reageren

Een nieuwe computer aanschaffen lijkt me in ieder geval niet nodig; de nieuwste Firefox werkt nog altijd prima op Windows 98 en ik meen zelfs 95. Bij mijn weten komt het praktisch niet meer voor dat een browser zelf geen UTF-8 snapt, maar zeer vaak voor dat hij de letters niet kan tonen omdat het betreffende lettertype geïnstalleerd is. Wat je hier echter vermeldt is de symptomen die je krijgt als je browser de UTF-8 zelf niet snapt, iets wat ik anno 2005 eigenlijk niet meer verwacht had. Welke browser gaat het om? Danielm 6 jul 2005 16:25 (CEST)Reageren

IE 5 voor Mac OS 9.1 Hoger kan mijn iMac niet hebben. Fransvannes 6 jul 2005 16:29 (CEST)Reageren

Dat is waar ook ja. Mac OS 9 kan in zijn geheel geen Unicode aan, dus er is een goede kans dat een hoop Macbrowsers de tekens niet kunnen tonen. Probeer eens Opera, als dat niet werkt vrees ik dat het lastig voor je wordt, misschien Linux op je Mac installeren... In ieder geval vrees ik dat er los van deze discussie her en der zowieso Unicodetekens gebruikt gaan worden, dus Wikipedia wijzigen gaat dan erg lastig worden. Danielm 6 jul 2005 16:58 (CEST)Reageren
En dus? Fransvannes 6 jul 2005 17:04 (CEST)Reageren
Laten we eerst eens kijken of we echt een probleem hebben. Laten we eerst eens kijken of de volgende tekens blijven staan:  ?????? ??. Als die gevandaliseerd worden heb jij een probleem, maar wij ook, want dan gaan Macgebruikers de Wikipedia vandaliseren. Installeer Opera. Als dat niet werkt zul je echt moeten gaan overwegen drastischer maatregelen te nemen, zoals bijvoorbeeld Linux installeren of een andere computer. Danielm 6 jul 2005 17:12 (CEST)Reageren
P.s. Ik wil deze discussie graag ergens anders voortzetten, de kroeg wordt te log en te traag. Danielm 6 jul 2005 17:24 (CEST)Reageren
Had je hem al verplaatst? (en waarheen)? Meteen een test, dit. Fransvannes 6 jul 2005 18:36 (CEST)Reageren

Ok, probleem dus. Kijk we kunnen tegen jou zeggen dat MacOS 9 oude troep is, maar je bent niet de enige die MacOS 9 gebruikt. Ik stel voor dat je in ieder geval Opera probeert om te bezien of we MacOS-9-gebruikers een oplossing kunnen bieden of we echt radicale maatregelen moeten voorstellen.

In ieder geval verwacht ik dat we een nieuwe categorie vandalisme gaan zien, alhoewel ik niet verwacht dat dat veel gebruikers zijn. Danielm 6 jul 2005 20:30 (CEST)Reageren

Dank je Daniel. Opera, althans de versie die ik heb (6.03) is geen alternatief: vele malen trager (tot vastlopen aan toe) een Wikipediascherm zonder frames. Bij mij tenminste wel. Ik vind het merkwaardig dat de ontwikkelaars dit kennelijk niet hebben bedacht. Voor mij persoonlijk is het niet zo heel dramatisch hoor: een gedwongen Wikipedia-pauze is helemaal niet zo slecht. Ik was alleen niet van plan nog goed werkende spullen weg te gooien, dus dan zal mijn iMac het eerst moeten begeven voor ik kan terugkomen. Ik heb altijd het standpunt ingenomen dat websites die ik niet kan lezen mijn bezoek blijkbaar niet op prijs stellen. Dan maar niet. Hier ligt het niet principieel anders, hoewel ik het natuurlijk erg jammer zou vinden. Het echte probleem ligt ergens anders. Natuurlijk is er het probleem(pje) dat er mensen onbedoeld pagina's gaan bederven en iemand dat dan weer moet repareren (is daar trouwens geen bot voor te maken?). Maar wezenlijker is dat Wikipedia, onbedoeld (ondoordacht) niet langer voor iedereen vrij bewerkbaar is. Dat is het altijd wel geweest, dus dat vind ik dan toch wel erg. Met het advies aan mij om een andere browser of een ander besturingssysteem te nemen, kom je mij wel te hulp (althans: dat had gekund), maar het principiële punt blijft overeind. Fransvannes 6 jul 2005 20:53 (CEST)Reageren

Volgens mij is het hele Wikipediaprincipe, om alle kennis in alle talen beschikbaar te krijgen gestoeld op een ander basisprincipe, iedereen heeft recht op alle kennis. Dat betekent dat minderheden ook recht hebben op die kennis. Mits er geen onoverkomelijk probleem is dienen we ons op technisch gebied zo toegankelijk mogelijk maken. Dat is precies waarom ik de tekstbrowser- en PDA-discussie opstartte.
Maar goed, daar kunnen we voorlopig even niets aan doen. Voorlopig is het even de schade beperken. Als Opera geen optie is weet ik ook even geen andere webbrowser voor MacOS. Tja, Netscape 4.5, maar daar ga je ook niet blij van worden. Ik ga een vraag aan het board stellen, misschien dat zij meer weten. Danielm 6 jul 2005 21:16 (CEST)Reageren
Dank wederom. Ik blijf intussen toch maar meedoen, in de hoop niet al teveel schade aan te richten. Als het te erg wordt, stop ik er wel mee. (Ik kan niet bij elke pagina eerst bekijken of er ergens een code op staat die ik kan bederven). Wat dat vrije betreft: rechtenvrij, vrij lezen, vrij schrijven: ik weet niet wat oorspronkelijk de doorslag heeft gegeven om die slogan te kiezen, ik vermoed het eerste, maar ik vind het alle drie belangrijk (maar: voor vrij kennis ontvangen heeft internet genoeg alternatieven; in vrij kennis uitzenden zijn we uniek). Fransvannes 6 jul 2005 21:39 (CEST)Reageren
Mijn mail is door het board al doorgestuurd naar de tech-mailinglijst. In de gaten houden... Danielm 6 jul 2005 21:45 (CEST)Reageren
Frans, heb je iCab al geprobeerd? [1]
...of een oudere Mozilla browser [2]; als je wat naar beneden scrollt zie je versie 1.2.1, dat is de laatste voor Mac OS 9 (direct hier)
Anders kan je ook proberen of WaMCom werkt (providing modified versions of Mozilla™ client software). Deze is moderner, maar ik ken het verder niet: [3] en [4].
...en misschien heb je hier ook wat aan: [5].
Succes, .....jeroenvrp..... 6 jul 2005 22:41 (CEST)Reageren
Intussen heb ik Mozilla 1.2.1 geïnstalleerd. Of het probleem met UTF-8-codes hiermee is opgelost, weet ik nog niet (maar ik gebruik hem nu, dus wie weet), maar hij maakt me om een andere reden het meedoen aan Wikipedia wel onmogelijk: welke Wikipediapagina ik ook bekijk, na enkele seconden word ik naar de bijbehorende bewerk-pagina gestuurd. Verre van handig uiteraard. Ik zal nog wat andere opties gaan proberen (waarmee ik natuurlijk alleen mijn eigen probleem oplos) Fransvannes 11 jul 2005 20:46 (CEST)Reageren

Ik heb hier helemaal geen verstand van, dus excuses als ik domme dingen zeg (dan leer ik graag van jullie antwoorden), maar die letters die door jou 'gevandaliseerd' werden in dat voorbeeld, dat zijn de IJslandse letters die ook voor de overstap op 1.5 al werden gebruikt. Frans: bedoel je dat pas nu we UTF-8-codering hebben, dit probleem optreedt, of heb je het gewoon nooit eerder gemerkt omdat je niet eerder pagina's bewerkte waar de eth en de thorn op stonden? Groet, Sixtus 6 jul 2005 23:55 (CEST)Reageren

Voor heen was zo'n IJslands teken niet meer dan &#...;, een browser kon hooguit problemen hebben om 'm te tonen, maar om te bewerken waren het gewone tekens die ontvangen er verstuurd moesten worden. Nu moet een browser opeens omgaan met tekens die soms 1, soms 2, soms meer bytes gebruiken. Echter, sinds mensenheugenis bestaat een teken uit 1 byte. M.a.w., zo'n browser snapt het niet, converteert het dan maar naar een vraagtekentje. Bij het opslaan komt dat vraagtekentje weer in de Wikibrontekst terecht waarbij het teken dus gevandaliseerd is. Danielm 7 jul 2005 00:04 (CEST)Reageren
Aha, dank voor de uitleg. Maar dat ik dan voorheen soms gewoon het echte teken zag in een bewerkingsscherm, en niet de HTML-code, is dan alleen te danken aan de wiki-software, begrijp ik, en afhankelijk van ofwel expliciet de code gebruiken ofwel op het teken in de balk met speciale karakters onder het bewerkingsscherm klikken? Sixtus 7 jul 2005 00:07 (CEST)Reageren
Nee, met 1 byte kan je 256 verschillende tekens weergeven. Meer dan de 26 tekens van het alfabet dus. In ISO-8859-1, de codering van voorheen zijn de tekens van alle Westeuropese talen opgenomen. ISO-8859-1 is vanaf het eerste begin de codering van het internet geweest, dit levert dus nooit problemen op, wat de reden is dat deze tekens ook voorheen gebruikt konden worden. Danielm 7 jul 2005 00:20 (CEST)Reageren

Er zijn in die mailinglijst [6] al enkele oplossingen aangedragen. Hans (JePe) 7 jul 2005 00:15 (CEST)Reageren

Ik gebruik OS9.1 met de Mozilla-1.3.1 browser (link: zie hierboven) al héél lang. Geen problemen. Ten minste, tot nog toe niks van gemerkt._Johjak 7 jul 2005 01:07 (CEST)Reageren

Mensen met exotische of oude besturingssystemen[brontekst bewerken]

Mozilla ondersteuning per versie/OS. Patio 7 jul 2005 12:28 (CEST)Reageren

Bug met Internet Explorer[brontekst bewerken]

Ik wil er op wijzen dat er een (weinig bekende) bug zit in Internet Explorer die bij fileuploads in combinatie met UTF-8-tekens de upload kan corrumperen. De bug zit in elk geval in alle versies 5 en 6. Het is niet voorspelbaar wanneer de bug precies optreedt, en het gebeurt ook niet altijd. In elk geval is het gebruik van UTF-8 tekens in het "commentaar" veld bij het uploaden van een bestand niet zonder risico's. Taka 25 jul 2005 13:37 (CEST)Reageren

UTF8/16 mismatch[brontekst bewerken]

De UTF16 encoding voor karakters 010000 - 10FFFF heeft 20 x'jes; de UTF8 encoding 21. Gezien het feit dat 010000 - 10FFFF ongeveer een miljoen karakters zijn vermoed ik dat het UTF16 aantal correct is. - De voorgaande niet ondertekende opmerking werd toegevoegd door 82.210.249.81 (overleg|bijdragen) 14 jul 2008 15:48

Het is correct dat UTF-16 vanaf U+10000 een bit minder gebruikt dan UTF-8: bij het coderen wordt van deze waarden 1000016 afgetrokken, waardoor het restant precies in 20 bits past. Dit is inmiddels toegelicht in de tabel: ccccc kan de waarden 1 t/m 16 hebben, waardoor dddd = ccccc - 1 in 4 bits past. Alex1 28 mrt 2010 12:26 (CEST)Reageren