Wikisource:Proofread-extensie

Het wikisource-project heeft vrij vroeg in haar bestaan een software-uitbreiding ondergaan, waardoor het mogelijk werd gescande documenten om te zetten tot wikisource-artikel zonder deze over te moeten typen (of van een digitaal word-document te kopieren). Deze uitbreiding gebruikt m:Wikisource_Handbook/OCR (OCR) voor het genereren van de tekst. Omdat OCR-software verre van perfect is, verschijnen er vaak veel fouten in de resulterende tekst. Om deze te corrigeren worden via internet pagina's aan vrijwilligers ter beschikking gesteld; de originele pagina-afbeelding en de herkende tekst verschijnen naast elkaar. De wikisource-gebruiker kan volstaan met het corrigeren van de OCR-gegenereerde transcriptie van het gescande brondocument. De gecorrigeerde tekst wordt vervolgens met een pages index code ingesloten (transclusie) in de wikisource-artikelen die vervolgens naar een e-reader geëxporteerd kunnen worden.

Deze software-uitbreiding die overtypen vervangt door OCR-tekst corrigeren heet in het engels ProofreadPage-extension (nl:correctiepagina-uitbreiding), of kortweg proofread-extension. [1]

De voordelen van deze uitbreiding zijn duidelijk:

  • Gescande brondocumenten worden in wikisource binnengehaald.
  • OCR-getranscribeerde teksten (die zelden 100% herkenning hebben).
  • Een eerste wikisource-gebruiker corrigeert de OCR-transcriptie.
  • Een tweede wikisourcegebruiker kijkt de correctie na en keurt die goed.
  • Gecodeerde overdracht van tekstdelen (transclusie) in éen of meerdere wikisource-artikelen.
  • Ook latere correcties van indexpagina's blijven mogelijk, zonder dat de wikisource-artikelen gewijzigd hoeven te worden.

De “proofreadPage-extensie” is een zeer krachtige software om bronnen op Wikisource te ontsluiten. Merk op dat het wikisource-project fundamenteel afwijkt van Wikipedia: In wikipedia worden originele artikelen geschreven; met het hele proofread-gebeuren in wikisource worden bronteksten omgezet in gecorrigeerde e-teksten die met de knop in de linkerbalk “Download as EPUB” ge-exporteerd kunnen worden naar je e-reader. Wikisource is een e-bibliotheek!

Inleidende opmerkingen over het werken met de “proofread-extensie”

bewerken

Naamruimtes

bewerken

De wikisource software maakt gebruik van naamruimtes, herkenbaar aan het naamruimte-voorvoegsel met dubbele punt. Vorbeelden van naamruimtes zijn: Bestand:, Categorie:, Wikisource:, Help. Zie Help:Naamruimte. Pagina's in de hoofd-naamruimte hebben geen naamruimte-voorvoegsel.

Door de ProofreadPage-uitbreiding zijn twee nieuwe naamruimtes ingevoerd: Index-naamruimteen Pagina-naamruimte. Samen met de Hoofd-naamruimte zijnj deze twee belangrijk voor het proofread-proces.

  • De Index-naamruimte : in deze naamruimte wordt het gescande document door de software-uitbreiding in wikisource binnengehaald vanuit wikimedia commons. De software creëert daarbij een directe link naar iedere individuele pagina van de (djvu of pdf) scan. Deze pagina's worden STANDAARD genummerd naar hun scannummering zoals op commons aangetroffen. In de Index kan met de paginalijst de scanummering van de pagina's gesynchroniseerd worden met de paginering van het document. Zie Wikisource:MaakIndex
  • De Pagina-naamruimte: in deze naamruimte komen door de software-uitbreiding de individuele pagina's van de scan. Zo'n pagina bevat twee vensters: één venster met de scan-afbeelding van de pagina, en één venster met de (nog niet gecorrigeerde) OCR-transcriptie. Door corrigeren wordt het percentage tekstherkenning maximaal opgevoerd, liefst tot 100%. In dit transcriptie-venster worden alle correcties aangebracht, door vergelijking met de scan-afbeelding in het andere venster.
  • De Hoofd-naamruimte: de bedoeling is dat er uiteindelijk een Artikel[2] in de hoofdnaamruimte gepubliceerd wordt. In zo’n artikel wordt een gescande bron als e-tekst gepresenteerd aan de lezer.

Van de pagina's in de pagina-naamruimte worden alleen de teksten uit het transcriptievenster gepubliceerd in één (of meer) artikel(en) in de hoofd-naamruimte. Het publiceren in de hoofdnaamruimte gebeurt niet door kopieren-plakken van de tekst, maar door transclusie met een pages index code. Een artikel in de hoofdnaamruimte is dus niet bedoeld voor bewerking door een eindgebruiker. In zo’n artikel kunnen dus bijv. geen typefouten enzo gecorrigeerd worden. Dat is ook niet de bedoeling : het artikel is dank zij de tranclusie semi-beschermd tegen wijziging.



Hoofdnaamruimte

bewerken

Het uiteindelijke doel van het “proofread”-proces is dat er een artikel in de hoofdnaamruimte komt waarin een “bron” gepresenteerd wordt aan de eindgebruikers (de lezers). Zo'n artikel kan er verschillend uitzien, maar bevat in ieder geval de titel en (een link naar) de inhoudsopgave. Een goed voorbeeld op de Engelse Wikisource: s:en:The_Story_of_the_Treasure_Seekers.

Achter die “titelpagina” zitten dan de afzonderlijke hoofdstukken, bijv: Chapter 1 van de Treasure Seekers.

Dat is de tekst zoals die door de eindgebruiker (dat is een lezer) gelezen kan worden. Er zijn functies om van hoofdstuk naar hoofdstuk verder te bladeren, en terug te gaan naar de inhoudsopgave etc.

Naast het artikel in de hoofdnaamruimte… Want dit is nog maar het begin van het proofread-verhaal… naast de pagina(’s) in de hoofdnaamruimte, heeft een bron ook nog allerlei “back office”-pagina’s. De pagina’s “onder de motorkap”, zullen we maar zeggen. Dat zijn de pagina’s in de naamruimten: “Pagina” en “Index”.

De Pagina-naamruimte

bewerken

Dat zie je al meteen als je in het hierboven bedoelde hoofdstuk 1 van de Treasure Seekers kijkt. Dan zie je links naast de tekst een verwijzing naar pagina-nummers tussen vierkante haken. Die pagina-nummers zijn aanklikbaar. Als je bijv. op pagina 8 klikt kom je op een pagina in de pagina-naamruimte (de terminologie is soms een tikje verwarrend; ik vertaal maar even 1 op 1 vanuit het Engels). Hier wordt (links) een transcriptie van pagina 8 van het originele werk gegeven en rechts een afbeelding van de scan van de pagina uit het originele boek.

De pagina in de pagina-naamruimte is de pagina waar de bewerker (editor) actief is (geweest). De eindgebruiker (lezer) kan er altijd een kijkje nemen. Bijvoorbeeld om te zien waarom op bladzij 8 in de tweede regel “something” cursief is geschreven. Simpel: omdat het in het oorspronkelijke werk ook zo was.

Overigens ligt hier ook het aangrijpingspunt voor “type-fouten”. Er kunnen type-fouten zijn die ook al in het oorspronkelijke werk zitten, en die moeten er dus ook gewoon in blijven zitten. Dat kan hier gecontroleerd worden. Eventueel kan met een “SIC”-sjabloontje worden aangegeven dat het een type-fout betreft.

(voorbeeld: sneenwsok) Pagina:Noorsche Volksvertellingen.djvu/103

Goed. Dat is dus de “pagina in de pagina-naamruimte”. Voor de editor de pagina waar het om draait. Voor de eindgebruiker (lezer) hooguit een pagina om af en toe even op terug te vallen als iets niet duidelijk is, of nagekeken moet worden ofzo. (Of – dat heb je bij bibliofielen – om even te kijken hoe het er in de oorspronkelijke uitgave (scan) uitzag). Persoonlijk vind ik dit een heel sterk ding van de proofread-aanpak. Je kunt, als je dat wilt, als eindgebruiker, gewoon in de hoofdnaamruimte blijven, en gewoon de tekst lezen, en je kunt met 1 klikje, ook de oorspronkelijke tekst – en de transcriptie ervan – inzien, en daar eventueel wijzigingen aanbrengen.

De Index-naamruimte

bewerken

Daarmee zijn we er nog niet. Er is nog een heel belangrijke naamruimte. Dat is de index-naamruimte. Daar komen we bijvoorbeeld door vanuit pagina 8 in de pagina-naamruimte op het pijltje omhoog te klikken: Index van de Treasure Seekers. Je kunt hier ook komen door vanuit de beginpagina op “Source” te klikken, bijvoorbeeld. In de Nederlandse Wikisource heet dat ‘Bron’.

Dit is ook weer een pagina die niet primair voor de eindgebruiker/lezer bedoeld is, maar die de gebruiker/editor zicht moet geven op de voortgang van het werk aan een bron, en die daarnaast ook een makkelijk instrument biedt om van pagina naar pagina te schakelen.


Proeflezen en controleren

bewerken

Het is hier misschien ook goed om even te wijzen op het feit dat alle pagina’s van het werk waar we nu naar kijken groen zijn gemarkeerd[3]. Dat betekent dat ze “validated” zijn (“gecontroleerd,” op nl-wikisource). Het bewerkings-proces van elke pagina die wordt geproofread verloopt in (ten minste) twee stappen. De eerste stap is het “proeflezen”. Dan wordt een pagina voor het eerst getranscribeerd op een manier dat er een – volgens de editor – leesbaar en correct geheel ontstaat. In de index wordt de pagina dan geel. Daarna moet een andere editor die pagina nog een keer nakijken (en evt. correcties aanbrengen), en dan is de pagina “gecontroleerd”.

Het is wellicht van belang om aan te duiden dat bij "proofreaden" het over schrijven vervangen is door corrigerend lezen. De tekst moet gecorrigeerd, letterlijk teken voor teken gelezen worden. Dat geldt ook voor valideren (of: controleren).

Als je een beetje een beeld van de gang van zaken in dit proces wil krijgen is de lopende “Proofread of the Month” een aanrader: een aantal mensen werken hier samen om een boek snel in z’n geheel te proeflezen (en te valideren) (binnen een maand, dus). Een heel leuke manier van werken, waardoor automatisch ook veel uitwisseling van ervaring plaatsvindt!

Het “proofread”-proces in een schema[4]

bewerken

ProofreadPage has five quality levels :

Without text
not yet created page Not proofread Proofread Validated
Problematic

Wil je het ook eens proberen ?

bewerken

Een lijst met alle lopende (en inmiddels voltooide) “proofread”-activiteiten:

Zie ook

bewerken

Voor meer informatie:

Voetnoten

bewerken
  1. Proof-reader = corrector, zie: What is proofreading
  2. Om verwarring te voorkomen met de pagina's van de scan (= pagina's van de Index), duiden we de pagina's in de hoofdnaamruimte hier aan met Artikel
  3. kleuren kunnen met persoonlijke instellingen anders zijn dan hier genoemd!
  4. van mul:Wikisource:ProofreadPage