In het voorjaar van 2013 werd ik uitgenodigd om een bijdrage over Digital Humanities te schrijven voor META, het Vlaamse tijdschrift voor bibliotheek en archief. Die bijdrage verscheen in het aprilnummer. Enkele kritische bemerkingen aan het adres van de Vlaamse en Belgische bibliotheken lokten een reactie uit van de KBR (Koninklijke Bibliotheek van België), die in META 2013/06 verscheen. Mijn recht van antwoord, ten slotte, werd gepubliceerd in het julinummer (META 2013/07).

Hieronder worden de drie bijdragen chronologisch weergegeven.

Thomas Crombez, Het onbehagen in de digitale cultuur: De opkomst van Digital Humanities (META 2013/04)
Marc D’Hoore en Sara Lammens, Erfgoed en digitalisering: Pleidooi voor wederzijds respect en een open debat (META 2013/06)
Thomas Crombez, Méér onbehagen in de digitale cultuur (META 2013/07)

Het onbehagen in de digitale cultuur. De opkomst van Digital Humanities

Thomas Crombez (verschenen in META 2013/04)

De digitalisering van boeken en archiefdocumenten, die in de jaren 1970 een aanvang nam, lijkt op het eerste gezicht een succesverhaal. Bibliotheken en erfgoedinstellingen hebben – mede dankzij de interventies van internetbedrijven zoals Google en Amazon – de verscholen digitale krachten van hun eigen collecties ontdekt. Wat aanvankelijk een betrekkelijk artisanaal proces was van manueel scannen en data invoeren, is nu veranderd in geautomatiseerde massadigitalisering. Maar met welke doelstellingen en attitudes wordt er juist gedigitaliseerd vandaag? Voor wie? En hoe krijgt het publiek toegang tot de nieuwe digitale rijkdommen?

De inzet van dit stuk is, getuige de titel, bewust polemisch. Eerst volgt een beknopt historisch overzicht van de impact die digitalisering binnen de geesteswetenschappen had, een beweging gemeenzaam benoemd als digital humanities. Dit nieuwe wetenschappelijke veld (het is nog te veel in beweging om al van een ‘vakgebied’ te spreken) vormt de gedroomde plek voor nieuwe ontmoetingen tussen enerzijds archivarissen en bibliothecarissen, anderzijds de onderzoekers die in hun collecties zoeken en werken.

Toch zijn zulke ontmoetingen relatief zeldzaam. Onderzoekers willen meer en andere vragen stellen aan de gedigitaliseerde materialen, dan nu mogelijk is. Bibliotheken, archieven en musea breken zich het hoofd over hoe ze op die behoeften kunnen inspelen, zonder hun andere kerntaken uit het oog te verliezen. Deze bijdrage is dus een kroniek van een gemiste ontmoeting, en tegelijk een pleidooi om nieuwe ontmoetingsplekken en labo’s in te richten.

Beknopte geschiedenis van de digitale cultuurwetenschap

Niet in de universiteiten, bibliotheken en archieven moet het begin van de digitaliseringsgolf gezocht worden. Het initiatief kwam van outsiders. Twee belangrijke projecten uit de vroege jaren 1970 liggen aan de bron van zowel het digitale boek als het toepassen van digitale methodes in de cultuurwetenschappen. Het eerste is de Index Thomisticus, een index op lemma van de werken van Thomas van Aquino, gerealiseerd door de Italiaanse jezuïet Roberto Busa in samenwerking met computergigant IBM. Het tweede is Project Gutenberg, aanvankelijk gestart als hobbyproject door de Amerikaanse student Michael S. Hart.

Het is niet toevallig dat er omtrent 1970 een breekpunt valt te signaleren. Tot op dat moment was de rekenkracht van computers enkel weggelegd voor bedrijven, overheidsinstanties en wetenschappers. Courante toepassingen waren militaire berekeningen, demografische tellingen en wetenschappelijke dataverwerking. Pas met de komst van de microprocessor worden computers snel en goedkoop genoeg om een veel grotere groep gebruikers te bereiken. Dit nieuwe tijdperk luidt heel andere toepassingen in. Bijvoorbeeld de home computer, of videogames, maar ook de digitalisering en verspreiding van tekst en beeld.

Het allereerste digitaliseringsinitiatief rond tekst is Project Gutenberg. Het ontstaat op 4 juli 1971, wanneer Michael S. Hart, student aan de University of Illinois, zich afvraagt of hij iets nuttig kan doen met de vrijwel onbeperkte computertijd op het universiteitsnetwerk die hij via zijn broer heeft verkregen. Op vier juli tikt hij de Amerikaanse Onafhankelijkheidsverklaring over, en biedt die als download aan op het (toen nog erg kleine) internet. Later zal hij zelf nog tal van klassieke teksten toevoegen, zoals de Bijbel en de werken van Homeros en Shakespeare. Het ideaal is om zo veel mogelijk teksten die vrij zijn van copyright (op dat ogenblik nog gelimiteerd tot 28 jaar na de dood van de auteur, later onder druk van Amerikaanse lobbyisten opgetrokken tot 50 en daarna 70 jaar) gratis beschikbaar te maken voor een zo groot mogelijke groep. Daarom worden de technische vereisten ook bewust zo laag mogelijk gehouden. Teksten worden als ‘platte tekst’ beschikbaar gemaakt, gecodeerd in ASCII, zonder opmaak. Vandaag worden meer dan 42.000 werken aangeboden op www.gutenberg.org, op basis van diezelfde richtlijnen (hoewel ondertussen naast platte tekst ook HTML en EPUB worden aangeboden).

Ook begin jaren zeventig verschijnt het eerste (gedrukte) volume van de Index Thomisticus. Het project had Roberto Busa s.j. al in de jaren veertig bedacht, maar kon pas werkelijkheid worden nadat hij de steun van IBM-stichter Thomas J. Watson had verkregen. Als doctorandus had Busa zelf duizenden fichekaarten gemaakt om een bepaalde filosofische term in Aquino’s werk te traceren. Hij begreep dus snel wat het potentieel zou zijn van een geautomatiseerde index. Samen met IBM digitaliseerde Busa het volledige werk van de middeleeuwse filosoof, liet het automatisch lemmatiseren (dat wil zeggen, elk woord tot zijn lemma of stam terugbrengen), en kon zo een index aanmaken die elke vorm van elk Latijns woord uit het werk van Thomas bevat (www.corpusthomisticum.org).

Stappen naar een digitaal tekstenlandschap

Busa’s werk luidde het begin in van de zogenaamde humanities computing, een studieveld waarin men computerprogramma’s ging ontwikkelen om taal te analyseren, en die vervolgens ook toe te passen op literaire, wijsgerige en historische bronnen. Die bronnen kwamen steeds vaker uit grootschalige digitaliseringsprojecten zoals Project Gutenberg. Tegelijk gingen ze technisch veel verder dan het initiatief van Hart. Nieuwe consortia en standaarden zagen het licht, zoals het TEI of Text Encoding Initiative, dat een XML-variant ontwikkelde waarmee een zo divers mogelijk spectrum aan papieren bronnen (gedrukte boeken, efemera, manuscripten) in digitale vorm kon worden omgezet, met behoud van de structurele kenmerken van het document. Automatische tekstherkenning (OCR of Optical Character Recognition) ging er met rasse schreden op vooruit. Niet langer was het nodig om teksten manueel te laten overtypen. Binnen de humanities computing ontwikkelde de computerlinguïstiek zich het snelst, mede onder invloed van de sterke belangstelling voor artificiële intelligentie. Het gaf aanleiding tot nieuwe technieken zoals auteursherkenning, automatische vertaling of het detecteren van eigennamen in een tekst.

De projecten die tijdens de volgende decennia binnen universiteitsbibliotheken en onderzoeksgroepen opgestart werden, focusten zich meestal op één auteur of periode. Ze gingen aan de slag met materialen die legaal zo ‘veilig’ mogelijk waren, dus uit de negentiende eeuw of eerder. Voorbeelden zijn de Perseus Digital Library, een immense collectie van teksten en archeologische objecten uit de Oudheid (www.perseus.tufts.edu), het William Blake Archive (www.blakearchive.org/blake) en het Rossetti Archive (www.rossettiarchive.org). Door deze activiteiten kwam de nadruk hoe langer hoe minder op computing, en des te meer op humanities te liggen. Het veld bedacht zichzelf met de nieuwe titel digital humanities, die ondertussen gemeengoed is geworden, zoals blijkt uit de talrijke gidsen en readers die recent gepubliceerd werden.^{^[1]}

Het sleutelmoment in de ommeslag van digitalisering naar massadigitalisering kwam er in 2004 met de lancering van Google Books, een website van het internetbedrijf dat niet enkele honderden of duizenden, maar miljoenen boeken doorzoekbaar aanbood. Na een tijd bleek het Googles voornaamste bedoeling te zijn om digitale boeken te verkopen, en zo de concurrentie aan te gaan met de iets later geïntroduceerde, maar immens populaire Kindle Store (en bijbehorende ebookreader) van Amazon. Maar beide initiatieven deden ook de ogen opengaan van heel wat geesteswetenschappers. Amazon kon bijvoorbeeld op basis van de digitale tekst van elk boek automatisch trefwoorden genereren, die opvallend accuraat waren. Zou het mogelijk zijn om deze reusachtige nieuwe bibliotheken, die vele miljarden woorden uit miljoenen volumes doorzoekbaar maakten, te gebruiken om nieuwe inzichten in de cultuurwetenschap te genereren?

Die vragen werden meer kracht bijgezet door massadigitaliseringsprojecten die niet in de commerciële sector waren ontstaan. Het concept van de digitale bibliotheek Gallica.fr was ontwikkeld samen met dat van de nieuwe fysieke site voor de Bibliothèque nationale de France (BnF). Ondertussen bevat de webbibliotheek meer dan twee miljoen documenten, waaronder ook landkaarten, manuscripten, kranten en bladmuziek. Vrijwel alle boeken uit de Google Bookscollectie die verschenen vóór 1900, werden eveneens opgenomen in de gratis toegankelijke collecties van non-profitorganisaties zoals HathiTrust (een bibliotheekconsortium) en het Internet Archive.

Niet alleen boeken, ook historische documenten werden het onderwerp van grootschalige digitaliseringsprojecten. Strafrechtszaken die voor de Central Criminal Court in Londen verschenen, werden gedocumenteerd via The Proceedings of the Old Bailey 1674-1913 (www.oldbaileyonline.org). Parlementaire debatten werden doorzoekbaar gemaakt via digitale databanken zoals Historical Hansard in Groot-Brittannië (hansard.millbanksystems.com) of Staten-Generaal Digitaal in Nederland (www.statengeneraaldigitaal.nl). Wat de plenaire sessies van de Belgische Kamer en Senaat betreft, is de situatie minder gunstig. Anders dan in Nederland, waar de Tweede Kamer de expertise van de Koninklijke Bibliotheek in Den Haag inschakelde, is hier te lande alleen sprake van een academisch project, namelijk Plenum.be, opgestart door historici van de Universiteit Antwerpen. Dit project, dat de auteur van deze tekst technisch hielp verwezenlijken, heeft alle door de Kamer zelf ingescande boekvolumes naar tekst omgezet en doorzoekbaar gemaakt. Bovendien kunnen via ‘Advanced Search’ ook grafieken worden opgevraagd die de populariteit van een bepaalde zoekterm over de tijd weergeven. De kwaliteit van de tekstherkenning blijft echter, gelet op het minieme budget van het onderzoeksproject, behoorlijk rudimentair. Evenmin is het mogelijk alle interventies van een bepaalde parlementariër op te vragen (zoals wel kan in de Britse en Nederlandse systemen).

Aan het eind van dit (onvolledige) overzicht moet een recente en belangwekkende ontwikkeling op vlak van massadigitalisering worden gesignaleerd: de aggregatie van talrijke digitale collecties, of het gekoppeld doorzoeken ervan, bijvoorbeeld via Europeana.eu.

Hoe lees je een miljoen boeken?

Welke nieuwe inzichten hebben de nieuwe collecties opgeleverd? Sinds de lancering van Google Books digitaliseerde het bedrijf de voorbije jaren niet minder dan vijftien miljoen boeken en periodieken. Geschat wordt dat er in de hele geschiedenis van het boekbedrijf zo’n 129 miljoen (unieke) boeken gepubliceerd werden. Het corpus vertegenwoordigt circa tien procent van die boekproductie, en kan dus een representatieve steekproef worden genoemd.

Kwantitatief cultuuronderzoek op basis van Google Books werd begin 2011 door Jean-Baptiste Michel en andere onderzoekers met de naam culturomics bedacht. In het tijdschrift Science (doorgaans een ongewoon forum voor onderzoek uit de geesteswetenschappen) publiceerden ze de eerste resultaten van hun analyses. De toepassingsgebieden liepen ver uiteen. Zo konden ze nieuwe en verfijnde schattingen voorleggen over de omvang van het moderne Engelse vocabularium (en de manier waarop het over de laatste twee eeuwen was geëvolueerd). Maar ze toonden ook de effecten van de nazicensuur tijdens de jaren 1930 en 1940, door de vermeldingsfrequenties van gecensureerde kunstenaars of schrijvers te vergelijken in het Engelse en het Duitse corpus. De waargenomen verschillen, die heel opvallend zijn voor figuren zoals Marc Chagall, Pablo Picasso of Walter Gropius, kunnen vervolgens gebruikt worden als patroon om andere slachtoffers van de intellectuele repressie te identificeren.^{^[2]}

Ook de onderzoekers van het Literary Lab aan de universiteit van Stanford (VS) volgen deze benadering. Eén van de stichters, de Amerikaanse literatuurhistoricus Franco Moretti, duidde hun aanpak aan als distant reading, een polemisch bedoeld contrast met de algemeen aanvaarde methodologie van de close reading. ‘Panoramisch lezen’ zou een goede vertaling zijn. Hoe vermijd je, zo verdedigt Moretti zijn benadering tegen het klassieke hermeneutische model, dat je steeds weer dezelfde paar honderd canonwerken analyseert? Wanneer je bijvoorbeeld een geschiedenis van de negentiende-eeuwse Engelstalige roman ambieert, moet je dan niet op een of andere manier ook het volledige corpus van de twintig- tot dertigduizend romans gepubliceerd in die periode bij je onderzoek betrekken?^{^[3]}

Recent konden onderzoekers van het Literary Lab, op basis van een computerlinguïstische analyse van 2958 Britse romans uit de achttiende en de negentiende eeuw, aan het licht brengen dat er zich twee duidelijk semantisch samenhangende clusters van woorden aftekenen in de romans. Bovendien worden de woorden van de ene cluster (voornamelijk abstracte begrippen die samenhangen met morele beheersing) minder frequent in de loop van de negentiende eeuw, terwijl de cluster van meer concrete woorden toeneemt in frequentie.^{^[4]}

In het Nederlandse taalgebied zijn eveneens een beperkt aantal projecten gelanceerd die digitale tekst op grote schaal analyseren om nieuwe inzichten te verkrijgen. Mike Kestemont (Universiteit Antwerpen) kon uit de opvallend afwijkende rijmwoorden in het vijfde deel van de Spiegel historiael, met name juist dat deel van de tekst dat onze enige contemporaine bron voor de Guldensporenslag (1302) vormt, afleiden dat de tekst allicht niet door de vermelde auteur (Lodewijk van Velthem) werd geschreven, maar naar alle waarschijnlijkheid uit een andere tekst afkomstig is.^{^[5]}

Ook corpora van hedendaagse documenten maken zulke panoramische vormen van onderzoek mogelijk. Het Platform Digital Humanities van de Universiteit Antwerpen, dat de auteur van deze tekst in het leven riep, digitaliseerde onlangs de eerste vijfentwintig jaargangen van het podiumtijdschrift Etcetera (1983-2008), goed voor een corpus van meer dan 2500 artikels door 657 verschillende auteurs, dat in totaal 5,5 miljoen woorden telt (dighum.uantwerpen.be/etc). Een op maat ontwikkelde interface laat toe om termen en namen niet alleen op de klassieke manier op te zoeken, maar ze ook onmiddellijk gevisualiseerd te zien als een grafiek van de evolutie van de vermeldingen over de hele periode.

Zo kun je als onderzoeker op zoek gaan naar tendensen en canoniseringsprocessen in de hedendaagse podiumkritiek. Welke namen worden actief gecanoniseerd door de redactie en de auteurs van het tijdschrift? Wie blijft systematisch onvermeld? Erg opvallend is bijvoorbeeld de prominente aanwezigheid van de experimentele, zogenaamd ‘postdramatische’ theatermakers in de pagina’s van Etcetera. De generatie van Jan Fabre, Jan Lauwers, Guy Cassiers, Ivo Van Hove en Jan Decorte wordt in niet minder dan vijf tot tien procent van alle artikels tussen 1983 en 1998 vernoemd. In het bijzonder Fabre en Decorte scheren hoge toppen: tijdens de jaren tachtig zijn ze in sommige jaargangen aanwezig in meer dan twintig procent van de artikels. Dat alles staat in schril contrast tot de eerder lacunaire aanwezigheid van de regisseurs die vast verbonden zijn aan de stadsschouwburgen tijdens diezelfde periode. Die mainstreamregisseurs, waaronder Nand Buyl (KVS), Jean-Pierre De Decker (NTG), Senne Rouffaer (KVS), Dirk Tanghe (NTG) of Hugo van den Berghe (NTG), worden nooit in meer dan drie procent van de artikels vermeld.^{^[6]}

Een ander soort projecten zet niet zozeer in op de kwantiteit, maar wel op de andere kwaliteiten van digitale edities. Het Samuel Beckett Digital Manuscript Project, ontwikkeld door Dirk Van Hulle (Universiteit Antwerpen) en Mark Nixon (University of Reading), produceert gesofistikeerde edities van Becketts kladversies, waarin elke doorhaling of kanttekening ook mee gecodeerd wordt. Zulke ‘genetische edities’ laten toe het ontstaansproces van een tekst nauwkeurig in kaart te brengen. Onderzoekers kunnen op die manier bijvoorbeeld de hele ‘levensloop’ van een zin doorheen alle kladversies in kaart brengen, een manier van onderzoek doen die bij klassieke historisch-kritische uitgaves vrijwel onmogelijk was.

Het moet benadrukt worden dat de bovenstaande projecten door onderzoekers werden geïnitieerd, niet bibliotheken of archiefinstellingen. Ook wat het eigenlijke aspect digitalisering betreft. Dat staat in scherp contrast met de situatie in de VS of Groot-Brittannië, waar de zogenaamde research libraries het voortouw hebben genomen in het oprichten van centra voor digital humanities (een overzicht is te vinden op centerNet, digitalhumanities.org/centernet).

In de Lage Landen, en zeker in Vlaanderen, blijft zo’n essentiële interface tussen bibliotheken en erfgoedinstellingen enerzijds en onderzoeksgroepen anderzijds een pijnlijk manco. Mogelijk komt daar een beetje verbetering in via het Nederlab-project (www.nederlab.nl), dat ambieert om alle reeds gedigitaliseerde Nederlandstalige teksten en datasets (zoals lexicons en linguïstische corpora) via een eengemaakte collectie aan onderzoekers aan te bieden.

Het onbehagen in de digitale cultuur

Het veld van de digital humanities mag dan beloftevol zijn, toch lijkt het, te merken aan opiniestukken zoals dat van Stanley Fish in de New York Times, ook een trendgevoelig modewoord.^{^[7]} Misschien is dat ook wel het grootste gevaar voor dit veld: om nooit meer dan ‘beloftevol’ te worden. Maar zo nieuw zijn de digital humanities nu ook weer niet. Geesteswetenschappers zijn van oudsher op zoek geweest naar nieuwe onderzoeksinstrumenten en nieuwe manieren om hun analyses te visualiseren. Al in de vroegmoderne periode maakte men gretig gebruik van een nieuwe grafische techniek, de gravure, om meer informatie weer te geven op een boekbladzijde dan mogelijk was met de hand. Vergelijkende tijdslijnen, bijvoorbeeld, waren al in omloop sinds de vierde eeuw na Christus. In tabelvorm toonden ze de wereldgeschiedenis door in verschillende kolommen de gebeurtenissen van de Egyptische, Assyrische, Joodse, Griekse en Romeinse tijdsrekening met elkaar te aligneren. Maar via gravures kon men de ‘informatiedensiteit’ (de term stamt van Edward Tufte) van zulke grafieken sterk doen toenemen, zoals bijvoorbeeld blijkt uit de Nouvelles tables historiques die Jean Rou maakte voor de Franse kroonprins in 1675.^{^[8]}

Vandaag zijn er meer mogelijkheden dan ooit om nieuwe databanken en visualiseringen te ontwikkelen. Die laten toe om nieuwe hypotheses te formuleren en te testen. En toch is de situatie vandaag wat betreft de toegankelijkheid van data en de visualiseringsmogelijkheden behoorlijk belabberd. Dat heeft ten dele met de onderzoekers zelf te maken. Bij de meeste ontbreekt het aan de elementaire expertise over hoe digitale bronnen tot stand komen, en hoe ze gemanipuleerd kunnen worden. Die kennis is nodig vooraleer je nieuwe manieren kunt bedenken om ze te bevragen en in beeld te brengen.

Een andere reden is bij de datavoorzieners te zoeken. Hoewel gestreefd wordt naar standaarden om data op te slaan (zoals TEI-XML of ALTO-XML), is dat veel minder het geval voor de ontsluiting ervan via een website of andere interface. Elke digitaliserende instelling beslist nog steeds autonoom hoe ze hun documenten ontsluiten. Niet altijd is het mogelijk om zoekresultaten volgens verschillende criteria te sorteren, bijvoorbeeld. Bovendien zijn digitale collecties haast nooit als ruwe data toegankelijk, alleen via de ‘handige’ webinterface. Helemaal schrijnend is het wanneer zelfs die gebrekkige website ontbreekt, zoals bij de krantendigitalisering van de Koninklijke Bibliotheek van België, die een enorme som gemeenschapsgeld investeerde in de digitalisering van 3,2 miljoen krantenpagina’s maar er niet in slaagt om die breder te ontsluiten dan op de vijf (!) “speciale pc’s in de leeszaal”. Zeldzaam is een digitale collectie die in één keer kan gedownload worden, zodat onderzoekers hun eigen interface zouden kunnen ontwikkelen of experimenten bedenken om de data te exploreren.

De oorzaken achterhalen voor het eerste tekort – de ontbrekende technische expertise bij onderzoekers – zou allicht een grondige analyse vragen van de recente ontwikkelingen in de geesteswetenschappen, die in elk geval interdisciplinaire samenwerkingen met informatici of grafische vormgevers niet aanmoedigen.

Het tweede pijnpunt – de haperende toegankelijkheid van veel digitale bronnen – vindt zijn oorzaak in de attitudes die kenmerkend zijn voor de digitaliserende organisaties. Archieven, bibliotheken, musea en andere instellingen die over fantastische collecties beschikken, en druk bezig zijn die te digitaliseren, blijven dat doen volgens een klassieke bibliothecaire of museale logica. Het digitale stuk wordt in een digitale boekenkast of een digitale vitrine gepresenteerd. De fysieke ervaring van de bezoeker probeert men zo goed mogelijk te reproduceren via een website. Enerzijds is dat heel logisch: Marshall McLuhan schreef al dat ‘Every new medium begins as a container for the old’. Bovendien proberen ze een zo breed mogelijk publiek te bedienen. Anderzijds zijn die keuzes vandaag ook onbegrijpelijk. Ze verraden een diep wantrouwen voor, of tenminste een gebrek aan inzicht in de digitale technologie. Verschillende soorten publiek vragen om verschillende interfaces, en momenteel blijft een aanzienlijk publiek van onderzoekers op z’n honger zitten.

Het besluit van dit beknopte overzicht kan dus moeilijk anders dan signaleren dat er overal opportuniteiten zijn, maar dat die zelden worden aangegrepen. De Universiteitsbibliotheek van Gent liet per vrachtwagen duizenden boeken door Google digitaliseren, maar waar blijven de data? Waar blijft het eerste Vlaamse onderzoeksproject dat deze enorme digitale schatkist kan exploiteren? Tot dusver heb ik, als onderzoeker, de beste kansen wanneer ik langs de sites van het bekende bedrijf in Californië zelf ga (met alle beperkingen van dien). Ander voorbeeld: het project Flandrica.be digitaliseert topstukken uit de Vlaamse erfgoedbibliotheken. Schitterend, maar wat is de omvattende vraagstelling (voor onderzoekers en/of voor een breed publiek) die de selectie heeft gestuurd? Tot nu toe lijkt het een willekeurig samenbrengen van wat op papier het meeste waarde heeft. Ook onze grootste federale erfgoedinstelling, de Koninklijke Bibliotheek van België, lijkt geen kans te laten liggen om zich niet op vlak van digitalisering (laat staan digital humanities) te moeten profileren.

De behoefte aan ontmoetingsplaatsen tussen erfgoedwerkers en onderzoekers is dus sterker dan ooit. Het gaat daarbij niet om eenrichtingsverkeer. Deze plekken moeten méér doen dan onderzoekers toelaten hun wensen qua digitalisering kenbaar te maken. Het moeten echte centra voor digital humanities worden, die workshops en trainingsessies aanbieden aan studenten, onderzoekers en erfgoedwerkers. Deze plekken zouden daardoor ook kunnen helpen om de collecties van de erfgoedinstellingen voor de erfgoedinstellingen zélf beter inzichtelijk te maken. Wat zit in onze archieven? Wat valt in onze bibliotheken te lezen? Meer dan ooit blijven die vragen open staan, maar meer dan ooit hebben we ook de instrumenten in handen om ze aan te pakken.

^{^[1]} Enkele noemenswaardige voorbeelden, waarin ook talrijke andere projecten vermeld worden, en waarvan enkele ook online toegankelijk zijn: SIEMENS, Ray en SCHREIBMAN, Susan, eds., A Companion to Digital Literary Studies, Londen, Blackwell, 2008 (digitalhumanities.org/companion/view?docId=blackwell/9781405148641/9781405148641.xml); GOLD, Matthew K., Debates in the Digital Humanities, University of Minnesota Press, 2012; PRICE, Kenneth M. en SIEMENS, Ray, eds., Literary Studies in the Digital Age, MLA Commons, 2013 (dlsanthology.commons.mla.org).

^{^[2]} MICHEL, Jean-Baptiste et al., ‘Quantitative Analysis of Culture Using Millions of Digitized Books’, in: Science, 331 (2011), p. 176-182.

^{^[3]} MORETTI, Franco, Graphs, Maps, Trees. Abstract Models for Literary History, Londen, Verso, 2005.

^{^[4]} HEUSER, Ryan, en LE-KHAC, Long, ‘A Quantitative Literary History of 2,958 Nineteenth-Century British Novels: The Semantic Cohort Method’, in: Pamphlets of the Stanford Literary Lab, 4 (May 2012).

^{^[5]} KESTEMONT, Mike, ‘Velthem et al. A stylometric analysis of the rhyme words in the account of the Battle of the Golden Spurs in the fifth part of the Spiegel historiael’, in: Queeste. Journal of Medieval Literature in the Low Countries 17:1 (2010), p. 1-34.

^{^[6]} Er zijn evenwel twee belangrijke uitzonderingen op deze observatie: Walter Tillemans (KNS) en Franz Marijnen (KVS). Ik doe een poging om die uitzonderingen te verklaren binnen het kader van dit artikel.

^{^[7]} FISH, Stanley, ‘Mind Your P’s and B’s: The Digital Humanities and Interpretation’, in: The New York Times, 23-01-2012.

^{^[8]} ROSENBERG, Daniel, en GRAFTON, Anthony, Cartographies of Time. A History of the Timeline, Princeton, Princeton Architectural Press, 2010; TUFTE, Edward. The Visual Display of Quantitative Information, 2de ed., Cheshire, CT, Graphics Press, 2001.

Erfgoed en digitalisering: pleidooi voor wederzijds respect en een open debat

Marc D’Hoore en Sara Lammens (META 2013/06)

We lazen met veel belangstelling het april-nummer van META (2013/4), en meer bepaald het artikel van de heer Crombez, Het onbehagen in de digitale cultuur. De opkomst van digital humanities. De auteur doet in zijn tekst een aantal beweringen over de Koninklijke Bibliotheek van België die van een degelijke kennis van zaken blijk zouden geven mochten ze niet zo licht en ongegrond zijn geweest. In wat volgt leggen we de lezer van META graag uit waarom onze krantenpagina’s ‘beperkt’ ontsloten zijn en willen we de bewering dat onze instelling zich niet profileert op vlak van digitalisering weerleggen aan de hand van enkele concrete voorbeelden.

In 2006 kreeg de Koninklijke Bibliotheek van België (verder KBB) in het kader van het ‘plan voor de digitalisering van het erfgoed van de federale wetenschappelijke instellingen’ de opdracht om een representatieve selectie van Belgische kranten uit de 19^de en 20^ste eeuw te digitaliseren. Maar liefst 3,2 miljoen krantenpagina’s uit een 70-tal Belgische dagbladen (1831–1950) konden in het kader van dit plan worden gedigitaliseerd. Van bij de aanvang van dit project werden heel duidelijke doelstellingen en prioriteiten vastgelegd. Hoofddoel was en is nog steeds het preserveren van een uitzonderlijk rijk maar ook zeer kwetsbaar erfgoed. Het fragiele krantenpapier is onderhevig aan verzuring, wat maakt dat het zichzelf langzaam maar zeker vernietigt. Een digitale kopie zorgt ervoor dat het origineel document minder vaak wordt geraadpleegd en gemanipuleerd, wat de bewaring ervan ten goede komt. Het gemeenschapsgeld dat voor dit project werd gebruikt, diende dus hoofdzakelijk om een belangrijk cultureel patrimonium te bewaren voor de toekomstige generaties.

De heer Crombez stelt in zijn artikel dat het de KBB ontbreekt aan technische expertise. Ook dat klopt niet. Van bij aanvang van het project werd voorzien in een optimale exploitatie van het erfgoed door gebruik te maken van de OCR-techniek (‘Optical Character Recognition’). Deze techniek laat toe gerichte opzoekingen te verrichten in de vele miljoenen gedigitaliseerde pagina’s.

Vanzelfsprekend zou het interessant zijn mocht het gedigitaliseerde materiaal ook vrij raadpleegbaar zijn op internet, maar voor dit aspect stoten we op de zeer strenge Belgische wetgeving inzake auteursrechten[1]. Volgens deze wetgeving mogen enkel kranten van vóór 1870 online worden gezet omdat er zeker geen auteursrechten meer op de artikelen rusten. Daardoor kan slechts een klein deel van de voor dit project gedigitaliseerde kranten zonder risico online worden gezet. Het merendeel van de documenten kan enkel ‘intra muros’ ter beschikking worden gesteld, hetgeen wordt toegestaan omdat de originelen in ons bezit zijn.

De KBB werkt al verscheidene jaren actief mee aan het zoeken naar een constructieve uitweg uit het debat dat woedt tussen wetenschappelijke en culturele instellingen, persuitgevers en beheersmaatschappijen over de exploitatie van het gedigitaliseerde patrimonium, maar ze kan onmogelijk verantwoordelijk worden gesteld voor het feit dat er tot op heden nog geen oplossing werd gevonden die alle betrokken partijen ten goede komt. Enkel een wetswijziging of een evenwichtig akkoord onderhandeld door alle betrokken partijen zou een uitweg kunnen bieden. Het spreekt evenwel voor zich dat de KBB gezien de huidige economische context hiervoor zelf geen belangrijke financiële middelen kan vrijmaken zoals dat in sommige andere landen wel gebeurde[2].

In het tweede deel van dit betoog weerleggen we de stelling dat de KBB als grootste federale erfgoedinstelling geen kans laat liggen om zich niet te moeten profileren op het vlak van digitalisering. Het digitaliseringbeleid van de KBB verdient een bijdrage op zich, maar we geven graag enkele voorbeelden van digitaliseringsprojecten die de instelling leidt, initieert of steunt en die van haar net die ontmoetingsplaats tussen erfgoedwerkers en wetenschappers maakt die de heer Crombez zo mist. De KBB speelt wel degelijk in op de wensen van de onderzoekers en is permanent bezig met het inzichtelijk maken van haar collecties. Het digitaliseren van de collecties is altijd in de eerste plaats bedoeld om ze beter te kunnen bewaren, maar vormt uiteraard ook een belangrijke pijler in de verbetering van de toegankelijkheid van het aan de instelling toevertrouwde erfgoed, en dit zowel voor het grote publiek als voor wetenschappers.

Een groot deel van de digitaliseringsprojecten waaraan de KBB deelneemt, kadert in onderzoeksprojecten waarvoor externe financiering werd verkregen, maar er worden ook delen van de collecties met eigen middelen gedigitaliseerd.

Op internationaal niveau werkt de KBB nauw samen met Europeana, het Europees portaal voor digitaal erfgoed. In januari 2010 ging het prestigieuze project ‘Europeana Regia’ van start. Vijf grote bibliotheken, waaronder de KBB, sloegen de handen in elkaar om meer dan 900 kostbare handschriften uit enkele belangrijke vorstelijke bibliotheken uit de middeleeuwen en de renaissance te digitaliseren. Sinds juni 2012 kunnen deze handschriften online worden geraadpleegd.

Daarnaast is de KBB betrokken bij het grootschalige digitaliseringsproject ‘Europeana Collections 1914-1918’, dat 10 nationale bibliotheken verenigt die samen meer dan 400.000 representatieve documenten met betrekking tot de Eerste Wereldoorlog digitaliseren en online ter beschikking zullen stellen. Het resultaat moet een basis bieden voor nieuw historisch onderzoek over de Eerste Wereldoorlog.

In het Prentenkabinet van de KBB werd in 2012 een internationaal project opgestart waarbij de Koninklijke Musea voor Schone Kunsten van België, het Rijksmuseum in Amsterdam en de Fondation Custodia partners zijn. Het gaat om de wetenschappelijke ontsluiting van de verzameling oude tekeningen in het kader van het AGORA-programma van het Federaal Wetenschapsbeleid. Niet minder dan 5.000 tekeningen zullen worden bestudeerd, beschreven en gedigitaliseerd overeenkomstig de internationale standaarden. Uiteraard zullen de beelden en beschrijvingen online beschikbaar worden gesteld.

Nog in 2012 is de Handschriftenafdeling samen met de Alamire Foundation (KU Leuven) begonnen met de digitalisering van haar bronnen van oude muziek. Het project beoogt de samenstelling van een online raadpleegbaar corpus van bronnen van oude muziek, die vandaag in verschillende bibliotheken en erfgoedinstellingen worden bewaard.

Ook de digitalisering van de collecties van het Penningkabinet van de KBB werd voortgezet. Door gedetailleerde beschrijvingen van de munten en penningen toe te voegen, zijn de online databanken echte naslagwerken voor onderzoekers geworden.

Voor wat de kranten betreft, heeft de KBB naast het hierboven besproken project ook verschillende honderdduizenden pagina’s gedigitaliseerd in het kader van bilaterale partnerships met onder meer het Stadsarchief Brussel, het Stadsarchief Diksmuide, de Université libre de Bruxelles, de Université de Lyon II of het Stadsarchief Sint-Truiden. En dit zijn maar enkele van de vele lopende projecten…

Dat digitaliseringsprojecten vaak complexe vragen met zich meebrengen werd hoger al duidelijk. De problematiek rond auteursrecht is onlosmakelijk verbonden met de verspreiding van gedigitaliseerde documenten. De KBB neemt actief deel aan werkgroepen waarin de diverse aspecten en uitdagingen worden behandeld. Het project ARROW, dat bibliotheken, uitgevers en collectieve rechtenorganisaties verenigt, heeft tot doel het grootst mogelijk aantal rechthebbenden te identificeren en zodoende de rechtenstatus van zogenaamde ‘verweesde’ werken en van publicaties die niet meer in druk zijn te verduidelijken. Dit moet de mogelijkheden verbeteren om het Europese cultureel erfgoed te digitaliseren en beschikbaar te maken via internet.

We nodigen de lezer van META graag uit om een bezoek te brengen aan de KBB en zich een concreet beeld te vormen van de nieuwe dynamiek die er zich sinds enkele jaren ontwikkelt. De heer Crombez had dat beter ook gedaan alvorens aan zijn artikel te beginnen. Mocht hij de verplaatsing Antwerpen-Brussel te vermoeiend hebben gevonden, dan had hij ook via e-mail of telefoon contact met ons kunnen opnemen. Dat zou hem er misschien van weerhouden hebben beweringen te doen die weinig wetenschappelijke nauwkeurigheid en intellectuele eerlijkheid aan de dag leggen.

Marc D’Hoore – Verantwoordelijke afdeling Kranten en hedendaagse media

Sara Lammens – Directeur Ondersteunende diensten

[1] In het verslag van de VVBAD-studiedag Digitaal archief en auteursrechten (26 maart 2013) dat we eveneens in het april-nummer van META terugvinden, stelt ook Prof. Marie-Christine Janssens dat de geldende wetgeving duidelijk enorm strikt is.

[2] Voor meer informatie over deze problematiek en over het krantenproject in het algemeen, zie Marc D’Hoore, « Un exemple de projet de numérisation de masse : les journaux de la Bibliothèque royale de Belgique », in Marc D’Hoore, Frédéric Lemmers, Dirk Leyder (eds.), La numérisation du patrimoine écrit : du virtuel à la réalité – De digitalisering van het geschreven erfgoed: van denkbeeld tot feit (Archives et Bibliothèques de Belgique – Archief-en Bibliotheekwezen in België, 2011, t. LXXXII, 1-4, p. 117-134).

Méér onbehagen in de digitale cultuur

Thomas Crombez (META 2013/07)

Het is een spijtige wetmatigheid van discussies op online forums dat, naarmate ze langer aanslepen, de waarschijnlijkheid dat iemand de vergelijking maakt met het nazisme of Adolf Hitler alsmaar groter wordt. Van Godwin’s Law of Nazi Analogies bestaat helaas ook een evenknie in academische polemieken. Na bepaalde tijd moet en zal de tegenpartij van een gebrek aan intellectuele eerlijkheid beschuldigd worden.

Ik ben blij dat dat pas in de laatste alinea van de repliek van de KBB gebeurt. Op die manier weet de academische gemeenschap opnieuw meer over de talrijke digitale initiatieven die zich achter de muren van de Albertina ontwikkelen. Dat die initiatieven (of toch tenminste de publieke, voor iedereen vrij toegankelijke kant ervan) vandaag rijkelijk tekortschieten in de noden van onderzoekers, daar blijf ik bij.

Het is namelijk te makkelijk om een indrukwekkende lijst van digitaliseringsprojecten voor te leggen. Niet dat de digitalisering van meer dan negenhonderd kostbare middeleeuwse handschriften of vijfduizend oude tekeningen niet waardevol zou zijn. Integendeel. Maar omdat dat soort projecten weinig meer zijn dan een digitale vertaling van de traditionele taak van een wetenschappelijke bibliotheek. Inderdaad: digitalisering met het oog op betere conservering.

Een wetenschappelijke bibliotheek, laat staan de grootste wetenschappelijke instelling van ons land, die zich vandaag tot die taak zou beperken, schiet tekort. Zoals ik in mijn artikel uitgebreid probeer aan te tonen, wordt er méér mogelijk dan conservering met de enorme hoeveelheden gedigitaliseerde bronnen. Vanaf nu (ik bedoel: vanaf Google Books, het prototype van wat een overvloed aan gedigitaliseerde culturele producten als onderzoeksinstrument kan betekenen) gaat het om massadigitalisering. Niet meer om digitalisering als de ultieme zuurvrije kast. Niet meer om de logica van de vitrine.

We zijn nu elders aanbeland. Enkele cijfers om dat hard te maken. Tijdens de laatste twee jaar kwamen op de website van het Nederlandse project Historische Kranten gemiddeld 77.000 bezoekers per maand over de vloer. Recent is dat cijfer sterk aan het stijgen. Voor juni 2013 waren het er meer dan honderdduizend. Samen vroegen die bezoekers, in die maand, meer dan 3,7 miljoen gedigitaliseerde krantenpagina’s op.^{^[1]}

Keer terug naar de vorige alinea, en lees die cijfers opnieuw. Dat zijn miljoenen krantenpagina’s iedere maand. Dat zijn honderdduizend historici, academici, heemkundigen en amateur-genealogen die iedere maand aan hun informatie komen van achter een simpele pc. Mezelf incluis. De collectie van Nederlandse kranten is op dit ogenblik (gezien De Volksgazet, De Schelde, De Standaard of Volk en Staat allemaal veilig geconserveerd worden op de “vijf speciale pc’s in de leeszaal”) de meest toegankelijke bron die er is voor het Vlaamse theater van het interbellum, waar ik onderzoek naar doe. Of ik nu aan mijn kantoor zit, met laptop of tablet door de bibliotheek loop, of op een conferentie in het buitenland zit.

En dat zal blijkbaar, zo mag de onderzoeksgemeenschap uit uw reactie afleiden, nog enige tijd zo blijven. Want daar is, dreigend als een pantserkruiser uit de Eerste Wereldoorlog, “de zeer strenge Belgische wetgeving inzake auteursrechten”, waar conservatieve bibliothecarissen steeds mee schermen als ze de hete adem van de contemporanisten in de nek voelen.

Zullen we dan de systematische studie van de twintigste eeuw, mét eigentijdse digitale instrumenten, maar veiligheidshalve tot na het jaar 2100 uitstellen?

Als er iemand het voortouw kan nemen in de (inderdaad netelige) discussie over auteursrecht, dan is het wel juist de grootste wetenschappelijke instelling van het land. Als er iemand een beetje meer durf en ambitie aan de dag zou kunnen leggen om met haar volle wetenschappelijke en ook politieke gewicht waardevolle projecten te realiseren, waarvan de mogelijke schade aan commerciële belangen allang tot nihil gereduceerd is, dan is het wel de Albertina.

Wiens rechten worden er in ’s hemelsnaam geschaad bij het online beschikbaar maken van een krant uit 1934? Welke commerciële belangen zijn er gemoeid met nieuwsberichten die meer dan een halve eeuw oud zijn? Zal de achterkleinzoon van journalist Max Florian, die in oktober 1918 een recensie van Fernand Crommelyncks Les Amants puérils in het blad Le Messager de Bruxelles liet verschijnen, aan de Kunstberg komen aanbellen om auteursrechten te vorderen?

(Overigens, die krant werd helemaal door de KBB gedigitaliseerd, maar de hier geciteerde referentie moest ik vinden in Google Books.)

Oud nieuws is geen nieuws. Precies daarom is er ook een duidelijke uitzondering voor wetenschappelijke en pedagogische verspreiding van auteursrechtelijk beschermd materiaal. Opdat het niet alleen van de eventuele onredelijkheid van een rechthebbende zou afhangen, dat een document van historisch belang ontsloten wordt, of niet. Net dat argument hebben de partneruniversiteiten van de HathiTrust Digital Library (een consortium van wetenschappelijke bibliotheken in de V.S. dat miljoenen boeken digitaal ter beschikking stelt, waarvan vele afkomstig uit Google Books) succesvol gebruikt in de zaak aangespannen door de Authors Guild.

De potentiële schade aan het wetenschappelijk onderzoek en de culturele ontwikkeling die zou berokkend te worden, door grootschalige digitaliseringsprojecten niet open te stellen, is exponentieel groter dan de eventuele financiële schade (en inzake de Belgische kranten van voor 1950: zéér eventuele financiële schade) die rechthebbenden zouden oplopen.

Dat het niet alleen om schade voor het historisch onderzoek gaat, moge blijken uit het feit dat ook National Federation of the Blind betrokken was bij de rechtzaak. Blinden en slechtzienden zouden een enorme achterstelling ondergaan, mochten al deze digitale (en dus voor visueel gehandicapten ontsluitbare) teksten opnieuw achter gesloten deuren verdwijnen.

Kunt u zich voorstellen wat een visueel gehandicapte historicus moet gewaarworden, wanneer een voor hem of haar voorheen onmogelijk te gebruiken bron – zoals een papieren krantenarchief – opeens ‘opengaat’ door de koppeling van twee digitale poorten: een algemeen toegankelijke website zoals Historische Kranten, en een eenvoudige screenreader?

Maar nee, het zal niet zijn. Economische context, weet u wel. Meer nog: “Het spreekt evenwel voor zich dat de KBB (…) hiervoor zelf geen belangrijke financiële middelen kan vrijmaken zoals dat in sommige andere landen wel gebeurde.”

Hoezo, het spreekt voor zich? Wat er in Nederland kan (Historische Kranten, maar ook Het Geheugen van Nederland en Staten Generaal Digitaal) en in Frankrijk (Gallica.fr), daar zijn wij te arm en te lomp voor? De populistische vliegenmepper van de economische crisis is blijkbaar breed genoeg om er eender welk ambitieus project de kop mee in te slaan.

En overigens: als het zo moeilijk is om krantenartikelen uit het begin van de twintigste eeuw toegankelijk te maken, hoe komt het dat dat plots wél kan voor de 400.000 documenten en publicaties omtrent de Eerste Wereldoorlog, die in samenwerking met Europeana beschikbaar gesteld worden?

Wanneer, in 1837, Leopold I de KBB oprichtte op basis van de unieke bibliotheek van de graven van Bourgondië, bleek dat voor boekenliefhebbers reden tot feestgejuich. “Les rois bibliophiles ne sont pas si nombreux”, zoals Charles Nodier aanstipte. Me dunkt dat we in deze tijd opnieuw nood hebben aan des bibliothécaires bibliophiles.

Quo vadis, Albertina?

(Op zoek naar het citaat van Nodier? Kijk niet verder: books.google.com/books?id=UxwDAAAAYAAJ.)

^{^[1]} Cijfers opgevraagd bij de Koninklijke Bibliotheek van Nederland.

zombrec

Het onbehagen in de digitale cultuur (2013)