-
NL dienstverlener
-
ISO 28500
-
Betaalbaar
-
Open-source
De Richtlijn archiveren overheidswebsites van het Nationaal Archief geeft duiding aan de manier waarop overheidswebsites gearchiveerd moeten worden en komt in feite voort uit de Archiefwet.
De Richtlijn archiveren overheidswebsites bepaalt o.a. het volgende (samengevat):
---
Dagelijks harvesten
Harvesten houdt in het ophalen en downloaden van een pagina c.q. website. De Richtlijn archiveren overheidswebsites bepaalt dat dit dagelijks moet gebeuren zodat informatie die verdwijnt of wijzigt later nog terug te halen is.
Volledig harvesten
De hele website moet in zijn geheel geharvest worden tenzij dat juridisch of technisch niet mogelijk is. Er moet een lijst zijn met niet-harvestbare content.
.warc standaard
De webarchieven moeten worden bewaard in het .warc bestandsformaat (ISO 28500). Dit is de internationale standaard voor webarchief bestanden.
Grootte
Elk .warc webarchief mag maximaal 1GB groot zijn.
Compressie
Op de .warc archieven mag geen compressie toegepast zijn omdat niet zeker is dat de compressietechniek in de toekomst nog beschikbaar of gangbaar zal zijn en omdat een bestand dan in zijn geheel onleesbaar wordt als een deel beschadigd is.
Alle requests en responses
In het .warc website archief moeten alle requests en responses vastgelegd worden zodat duidelijk is hoe men op een pagina terecht komt inclusief doorverwijzingen.
Verplichte velden in het .warc bestand
In het WARC-infoblok:
- Software
- Format
- Robots
In de header van elk WARC-bestand
- WARC-Block-Digest
- Content-Type
- WARC-WARCinfo-ID
In de request en response-blokken:
- WARC-Target-URI
Meer informatie over de Richtlijn archiveren overheidswebsites
Wilt u meer informatie over de toepassing van de Richtlijn archiveren overheidswebsites voor uw organisatie? Neem dan contact met ons op. Wij zijn gespecialiseerd in het archiveren van websites.