woensdag 2 september 2009

EAD en de Annual Meeting van de SAA in 2009

Een bezoek aan de jaarlijkse vergadering van de Society of American Archivists is voor mij inmiddels routine geworden. Je weet hoe het georganiseerd is, en wat je ongeveer kunt verwachten. De eerste keer, in 2003 in Los Angeles, was het spannend omdat alles nieuw voor me was. Nu, in Austin Texas, kon ik mij als een routinier bewegen, hier en daar oude bekenden groetend, een praatje makend, en vooral efficiënt de informatie halen waarnaar ik op zoek ben, of waarin ik geïnteresseerd ben.


De jaarvergadering van de SAA is gewoonlijk groots opgezet, en duurt een week, dit jaar van maandag 10 tot en met zondag 17 augustus. De maandag is alleen voor SAA-bestuurders, en wordt dus door de meeste deelnemers gevoeglijk overgeslagen. Dinsdag en woensdag is gevuld met vergaderingen van commissies en groepen van de SAA, welke voor leden en niet-leden toegankelijk zijn. Donderdag, vrijdag en zaterdag zijn gevuld met de vele sessies, workshops, seminars en presentaties. Zo'n 75 parallelsessies zijn er georganiseerd, steeds 10 à 11 tegelijk in zeven dagdelen. Ieder van de ca. 1150 deelnemers moet dan uit dit aanbod een keuze maken en kan maximaal 7 sessies bijwonen. Tussendoor zijn er nog plenaire bijeenkomsten met een formeel (opening en sluiting), ceremonieel (uitreiking awards), commercieel (bedrijfspresentaties) of entertainment karakter (receptie, 'archives in the movies'). Op zondagochtend sluit de bijeenkomst van de EAD Working Group de jaarvergadering van de SAA af.

Woensdag 12 augustus vonden de 'roundtables' plaats van de SAA-groepen EAD, Archivist's Toolkit, OCLC-RLG en van de Description Section. Deze bijeenkomsten werden de werkzaamheden en de resultaten van het afgelopen jaar toegelicht en besproken. Bijzonder interessant was de presentatie van Mark Matienzo van de New York Public Library. Hij beweerde dat EAD maar beter afgeschaft kon worden, want het was een slecht ontwerp. Het was een vermenging van beschrijvingen van archiefdocumenten en contextuele informatie. En als we EAD niet wilden afschaffen, moest het vooral strakker worden, gericht op koppeling met databases, en vooral ook op het semantische web.



De volgende dagen waren bestemd voor de sessies. Ik heb presentaties bijgewoond over het gebruik van Web 2.0-technieken, het creëren en ondersteunen van online communities, massale digitalisering, efficiëntere vormen van archiefbewerking ("More Product Less Process"), het gecombineerd gebruik van EAD en EAC-CPF en de presentatie van de nieuwe versie van EAC-CPF voor het beschrijven van de archivistische context, de archiefvormers. Een aardige presentatie was die van het open source softwarepakket Omeka, bestemd voor het presenteren van foto- en archiefmateriaal in de vorm van 'tentoonstellingen'. De gehele vormgeving is kant en klaar beschikbaar en kan met behulp van sjablonen worden toegepast.
Uiteraard werd er ook aandacht geschonken aan het 75-jarig bestaan van de National Archives and Record Administration, de nationale archiefdienst van de Verenigde Staten, en wel tijdens een plenaire bijeenkomst met toespraken en met een videopresentatie.


Zondagochtend 17 augustus vond traditiegetrouw de laatste bijeenkomstplaats: die van de EAD Working Group. Deze stond dit jaar geheel in het teken van de voorgenomen herziening van EAD. De huidige versie van de EAD Document Type Definition stamt uit 2002, terwijl er in 2006 een Schema-versie als afgeleide daaraan is toegevoegd. De richting die deze herziening uit lijkt te gaan is de ontwikkeling van een strakkere versie van EAD, met minder variatie in de markering. De nieuwe versie zal ook database vriendelijker zijn, hetgeen o.m. inhoudt dat het aantal elementen met gemengde inhoud (tekst + elementen) zal verminderen. Ook de dateringselementen zullen worden aangepakt, waarbij de jaartallenreeksen zullen worden opgesplitst in afzonderlijke elementen, bijv. <dateStart> en <dateEnd>. Omdat ook de ICA standaarden aan revisie onderhevig zijn, zal met de eventuele wijzigingen daarvan rekening worden gehouden. De internationale leden van de werkgroep benadrukten het gevaar van een te strakke versie. Dan zouden de verschillende typen toegangen, die het resultaat zijn van verschillende beschrijvingstradities niet alle meer in EAD passen. Ook zou het betekenen dat bestaande EAD-documenten in veel gevallen handmatig moeten worden aangepast. Dat zou veel weerstand bij de bestaande en mogelijke toekomstige gebruikers kunnen oproepen. Besloten is om wel met de herziening te starten, maar ook een onderzoek te doen naar de wijze waarop EAD is toegepast. Ook is in overweging genomen om EAD in twee subversies te ontwikkelen, een uitgebreide voor de markering van de bestaande toegangen en voor minder gebruikelijke beschrijvingsmethodieken, en een strakkere, minder uitgebreide welke bedoeld is voor nieuwe toegangen en voor koppeling aan databases. Deze laatste zou dan een subset moet zijn van de uitgebreide subversie. Over de herziening is het laatste woord nog niet gezegd. Of, zoals Daniël Pitti het uitdrukte: Standards are politics.

15 opmerkingen:

  1. Dank voor dit verslag! Zoals je misschien al zag op Archief 2.0 moet ik het zelf doen met de video's van enkele van de sessies. Maar het klonk als een nuttige conferentie! (Wel een massale bijeenkomst hoor!)

    Ik kan me trouwens in Mark z'n woorden wel vinden als hij zegt dat EAD verder en beter moet gaan aansluiten bij ontwikkelingen rond het semantisch web. Maar goed, ik begrijp ook dat met name iedereen buiten Amerika natuurlijk met een enorme geschiedenis aan toegangen zit. En da's niet allemaal zomaar in aparte databaseveldjes gepropt... Lastige materie, zeker in internationaal verband.

    Ik begreep dat je mijn Second Life-collega Shannon Bohle ook nog had ontmoet, trouwens.

    BeantwoordenVerwijderen
  2. Dat klinkt als een prima combinatie van prettig en nuttig verenigd.
    Leuk om dit vanuit het deelnemersperspectief te kijken. Is dat werk Archivarius? Of gewoon vakantie? Of kun je dat niet op een weblog beantwoorden :)

    Goed dat er nog steeds over EAD wordt nagedacht. Niets is voor eeuwig, zelfs archieven niet.

    BeantwoordenVerwijderen
  3. Nuttig, zeer zeker. Ik denk dat deze bijeenkomsten voor veel Nederlandse archivarissen nuttig en aantrekkelijk kunnen zijn. En vrijwel altijd ontmoet je er wel een of twee. Als je het programma bekijkt, zie je dat veel verschillende onderwerpen aan de orde komen, en zeker niet allen maar EAD-achtige zaken. Dat zou wel erg eenzijdig zijn. Maar het bijwonen van zo'n congres is wel een kostbare zaak.

    Prettig is het ook, maar het blijft werk. Het programma is zo vol, dat je af en toe wel even een onderdeel moet overslaan. Bovendien was de temperatuur in Austin overdag tussen de 38 en 40 graden Celsius. Niet te harden dus. Ik heb alleen 's morgens voor half negen en 's avonds wat wandelingen in de omgeving gemaakt, o.a. naar het uitvliegen van de gigantische vleermuizenkolonie onder de Congresbrug vandaan.

    BeantwoordenVerwijderen
  4. Wow! Wat een leuk filmpje en wat een indrukwekkend aantal vleermuizen.
    Kostbaar. Tja, dat zal natuurlijk wel. Als het genoeg oplevert aan kennis en contacten, dan valt dat wel mee.

    BeantwoordenVerwijderen
  5. Interessant verhaal en ik ga die presentatie van Mark Matienzo zeker nog even bekijken. Op basis van jouw samenvatting ben ik echter wel benieuwd naar je mening.

    Maak je je zorgen en moet het Nationaal Archief vooruit kijken naar veranderingen die er vrijwel zeker komen? Of mag ik uit de opmerking "Standards are politics" dan ook maar meteen afleiden dat het allemaal danwel voor onze tijd, danwel na onze tijd gaat zijn?

    Overigens ben ik het wel eens met de aanleiding voor het kijken naar verandering. EAD is duidelijk niet opgezet met het oog op automatische verwerking. Er is in mijn ogen indertijd teveel aandacht besteed aan het 'human readable' aspect van XML. Een aanpassing (of wellicht juist een uitbreiding en wat richtlijnen) zouden de toepasbaarheid sterk vergroten.

    BeantwoordenVerwijderen
  6. @Luud: Indrukwekkend, inderdaad, zeker als je bedenkt dat de stroom aan vleermuizen zo'n 25 minuten aan één stuk doorging.

    @Grismar: Nú rekening houden met de komende wijzigingen is niet zo handig, want we weten nog absoluut niet wat er gaat veranderen. Wel is duidelijk dat een strakkere markering, ook bij een ongewijzigde EAD DTD of Schema beter is. Je hebt dan minder problemen bij het gebruik van de EAD-documenten als je koppelingen wilt maken met andere toepassingen. Maar als je de enorme verscheidenheid aan inventarissen ziet die wij nu hebben bewerkt, dan begrijp je wel dat volledige uniformiteit een vrome wens is. Het nú aanpassen van deze inventarissen uit de 19e en eerste helft 20e eeuw aan een strakke 21e eeuwse opmaak zou het DTNA-project onbetaalbaar gemaakt hebben. En we zouden er ook niet aan begonnen zijn. Het enorm aantal markeringsmogelijkheden binnen EAD heeft bijgedragen aan het wereldwijde succes ervan. Het blijkt nu een rem op verdere ontwikkelingen.

    Nu in het Nationaal Archief bijna alles (>95%) in EAD staat, is het mogelijk een verdere normalisering stapsgewijs aan te pakken. Extreem weinig voorkomende markeringen moeten handmatig worden gecorrigeerd. Maar als een minder gewenste markering veel voorkomt, loont het er een scriptje voor te (laten) schrijven. Wij blijven dus nog wel even bezig, als we bij willen blijven. Immers, niemand verplicht je mee te migreren naar de volgende versie van EAD.

    Standards are politics. Het betekent dat wijzigen van een bestaande standaard bepaalde belangen kan bevoordelen en andere kan benadelen. Dus ontstaan er verschillende kampen. Ik heb er alleen maar voor gepleit om deze belangen te kennen en ermee rekening te houden. Doe je dat niet, dan wordt EAD het speeltje van de rijke, technisch hoog ontwikkelde Amerikaanse universiteitsbibliotheken en vergelijkbare instellingen.

    BeantwoordenVerwijderen
  7. Je moet -ergens- beginnen, zo is het dan ook wel weer. Het is al een prestatie van formaat dat alle toegangen van het Nationaal Archief in een strikt formaat zoals EAD gevat zijn. Nu is het zaak genoeg grip op de zaak te houden zodat men toch mee kan komen met verdere ontwikkelingen.

    Natuurlijk heb je gelijk en staat het organisaties vrij om bij een oude versie te blijven, of zelfs een alternatieve aftakking te vormen, maar ik hoef niemand uit te leggen wat de nadelen zijn van een dergelijk aanpak. De meeste winst lijkt me te halen door EAD selectief uit te breiden met elementen die tegemoet komen aan de wensen van partijen die er iets in missen, zonder meteen terugwaartse compatibiliteit te breken.

    Aanpassingen kunnen optioneel zijn, zodat ze mogelijkheden bieden zonder iets uit het verleden uit te sluiten. En andere aanpassingen zijn denkbaar waarbij de transitie van een oud formaat naar een nieuw louter een kwestie is van automatische transformatie (XSLT) of met software ondersteunde conversie. Dat is het grote voordeel van alles in het digitale domein te hebben gebracht: de informatie kan nu worden gemanipuleerd met software en het handwerk kan worden beperkt tot handelingen die kennis en informatie toevoegen aan het geheel. The future is bright!

    BeantwoordenVerwijderen
  8. @Archivarius: Complimenten voor je werk de resultaten van ons kostbare belastinggeld breeduit te verantwoorden en ons te betrekken in de discussie. En het is inderdaad indrukwekkend dat jullie nu meer dan 95% van de toegangen (hoeveel is dat in absolute aantallen? 5500?) in EAD hebben omgezet.

    @Grismar: de uitgebreide mogelijkheden en daarmee soms losse regels in EAD maken automatische verwerking inderdaad niet eenvoudig. Daar is een wereld te winnen. Dat houdt overigens voornamelijk in dat er regels (en elementen) zullen moeten worden verwijderd, waardoor terugwaartse compatibiliteit juist in het gedrang komt en soms misschien zelfs wel niet automatisch (met XSLT) kan worden opgelost. Maar belangrijker: we moeten er vooral voor zorgen dat we het kind niet met het badwater weggooien! Een aantal (complexe) structuren helpen namelijk bij het toegankelijk maken van materiaal: dus eerst de te automatiseren wens (toegankelijk maken) goed bepalen en daarna de oplossing zoeken. Uit kosten-overweging (reduceren van de complexiteit maakt EAD goedkoper toepasbaar) kun je compromissen sluiten, maar dat doe je dan tenminste bewust: je weet namelijk welke wensen je dan bewust niet invult. Een wens kan niet zijn: "beter aansluiten bij databases". Dat is geen archivistiek, dat is ICT.

    @Christian: Wat bedoel je met "beter aansluiten bij ontwikkelingen rond het semantisch web"? In het semantisch web heeft data een bepaalde structuur waar logisch (d.w.z. door computers) mee kan worden omgegaan. Deze structuur kan automatisch worden afgeleid uit de bestaande structuur van EAD. Dat kan nu ook al. Ik zou geen enkele EAD-constructie kunnen bedenken die niet in termen van triples (http://en.wikipedia.org/wiki/Resource_Description_Framework) kan worden weergegeven. Het enige dat daarvoor nodig is, is het formaliseren van archiefbeschrijvingen (ik denk dan aan ISAD(G)) en software (bv. in XSLT) die EAD-structuren op deze formalisering mapt.

    En zelfs als niet alle constructies uit EAD kunnen worden vertaald: moeten we dan slechter gaan ontsluiten, om aan te sluiten bij het semantisch web!? Of moeten we accepteren dat een deel van EAD-beschrijvingen alleen van belang zijn voor mensen en dat een beperkt(er) deel automatisch(er) toegankelijk is?

    BeantwoordenVerwijderen
  9. @Ivo: Stand van zaken per 31 augustus 2009. Van de 5879 toegangen, die nu online staan, zijn er 5609 voorzien van een behoorlijke, zij het nog niet volledige inhoud. Er moeten er dus nog 270 toegangen worden aangevuld:
    - 160 zijn nu in verschillende stadia van bewerking. De planning is dat deze eind oktober allemaal zijn verwerkt, op wat probleemgevalletjes na.
    - 70 zijn zgn. Institutionele Toegangen, welke de CAS zal aanleveren. Er zijn zeker nog 50 IT's die helemaal niet op de site staan, die zijn nieuw sinds maart 2007.
    - 20 zijn webgereed, maar niet openbaar: daarvan komen de detailbeschrijvingen uit de <dsc> voorlopig dus niet op de website beschikbaar.
    - 20 zijn gekwalificeerd als Niet doen, m.n. toegangen op de fotocollecties, omdat deze tot het Beelden van de Toekomst-project behoren, en ontbrekende toegangen (nummer wel toegekend, maar toegang nooit (af)gemaakt).

    We schieten dus op, maar dan zijn we er nog niet. We moeten de meeste bijlagen nog inhangen, plaatjes (organigrammen, genealogieën) toevoegen, een gedeelte van de dateringen normaliseren voor de zoekmachine, eventueel thesauruswoorden toekennen aan deze 5879 toegangen, hyperlinks aanbrengen bij de zie-verwijzingen. En onwenselijke markeringen corrigeren, uiteraard.

    BeantwoordenVerwijderen
  10. @Ivo: er is naar mijn weten RDF-schema voor EAD, itt bv Dublin Core.
    Misschien is het mogelijk om EAD in RDF uit te drukken maar ik vermoed dat de ingebouwde hiërarchie voor complicaties zorgt.

    BeantwoordenVerwijderen
  11. @marco: Ik ken het RDF-schema voor EAD niet, maar ben wel benieuwd.

    In RDF druk je een (semantisch) netwerk van uniek identificeerbare dingen uit. Een hierarchie is een (beperkt) netwerk.

    BeantwoordenVerwijderen
  12. @Ivo: Ik citeerde maar zo'n beetje de woorden van Mark Matienzo. Ik weet maar iets van EAD en maar iets van het semantisch web, maar het lijkt me goed als de een beter gaat werken voor de ander. Dat lijkt me in z'n algemeen een goed streven.

    Of het nodig is en of het haalbaar is, dat kan ik niet beoordelen, aangezien ik te weinig weet van alle technieken achter beide standaarden. Om diezelfde reden kan ik niet reageren op je overige opmerkingen... Sorry!

    BeantwoordenVerwijderen
  13. Ik heb een experimentje gedaan met EAD en RDF/OWL. Heel basaal; het is nog veel oefenen. Het is te vinden in de laatste paragraaf van de pagina: http://www.zandhuis.nl/ead. Ik houd me aanbevolen voor vragen en opmerkingen!

    BeantwoordenVerwijderen
  14. In mijn vorige reactie is een woord weggevallen: er is naar mijn weten *geen* RDF-schema voor EAD. Redelijk essentieel....;-).
    @Ivo: goed dat je er één aan het opstellen bent.

    BeantwoordenVerwijderen
  15. @Marco: Dat hadden we uit de context wel begrepen. Mensen kunnen dat, machines nog niet ...

    Verder een link naar een aardige blog over EAD en RDF naar aanleiding van Mark Matienzo's presentatie in Austin.

    BeantwoordenVerwijderen