-
NL dienstverlener
-
ISO 28500
-
Betaalbaar
-
Open-source
Welkom
Wij bestaan sinds 2011 en weten alles van het archiveren van websites. Zoekt u een betaalbare en betrouwbare archiveerder? Zoek niet verder.
Wij onderscheiden ons door middel van open-source software en een no-nonsense aanpak. Geen accountmanagers, geen helpdesk. Geen opgeblazen poeha. U doet rechtstreeks zaken met de mensen in control en we houden dingen graag simpel.
U zegt ons welke websites gearchiveerd moeten worden en wij doen de rest. Over 10, 20, of zelfs 30 jaar terugkijken hoe uw website vandaag was? Geen enkel probleem.
-
Geautomatiseerd dagelijks, wekelijks of maandelijks.
-
ISO 28500 .warc archieven.
-
Verifieerbaar en betrouwbaar.
-
Open-source software.
-
Data opslag binnen Europa.
Inzicht krijgen in de kosten? Neem contact op voor een gratis scan van uw website(s) en een heldere offerte.
Over website archivering
Het archiveren van een website houdt in dat we naar uw keuze elke dag, week of maand een soort foto maken van uw website inclusief alle pagina's. Uw complete website wordt opgeslagen in een webarchief. Dit archiefbestand is niet aan te passen zonder dat dit zichtbaar wordt (de checksums, datums/metadata komen dan niet meer overeen). Dat betekend dat deze archiefbestanden gebruikt kunnen worden in bijvoorbeeld juridische geschillen of andere gevallen waarin men zeker moet zijn van de authenticiteit van de inhoud van het webarchief.
De webarchieven worden opgeslagen in een bestand dat door iedereen te openen is. Zo kunnen bijvoorbeeld burgers, bestuurders, ambtenaren, advocaten, rechters, officieren van justitie of journalisten elke pagina van uw website terugkijken zoals die was op het moment dat het webarchief gemaakt werd.
Opslag en bewaren
Eén van de grootste uitdagingen voor een betrouwbare website archiveringsdienst is de opslag. Een enkel webarchief is namelijk al snel meer dan 1000MB groot. We zorgen er daarom voor dat we dit heel goed geregeld hebben.
Voor een grote website die elke dag gearchiveerd moet worden en een bewaartermijn van 10 tot 20 jaar kost dit uiteindelijk terrabytes aan data. De kunst om het beheersbaar te houden zit 'm in schaalbare opslag, het dedupliceren van dubbele data en compressie op bitniveau. Dit houdt de kosten in de hand en beperkt de complexiteit van het hardware platform.
De website archieven kunnen niet rechtstreeks gecomprimeerd worden: de archiefwet vereist dat ze zonder compressie worden opgeslagen. Op bitniveau kan dat wel en maken we optimaal gebruik van de mogelijkheden van het Btrfs en ZFS bestandssysteem. Zo kunnen we data 10, 20 of 30 jaar betrouwbaar en betaalbaar opslaan.
Webarchieven ontsluiten
Archiveren wij uw website? Dan ontvangt u van ons een link naar een openbare pagina die u naar wens op uw eigen website kunt publiceren zodat iedereen uw gearchiveerde pagina's kan terugkijken.
Dit werkt heel eenvoudig. Men navigeert simpelweg naar het gewenste jaar, de maand en de dag in een agenda-weergave.
Daarnaast ontsluiten we de .warc archieven rechtstreeks. Zo kunnen journalisten, onderzoekers en belanghebbenden de archieven controleren en ook met een eigen viewer bekijken.
Voorbeeld
Archiefbestanden downloaden
Op deze pagina ziet u bijvoorbeeld de archivering van www.regio-hartvanbrabant.nl. U kunt hier kiezen om de .warc archieven te downloaden, of om de website live te browsen zoals die op een gekozen dag was.
Viewer ook offline beschikbaar
U kunt onze archieven ook offline bekijken in de Replayweb viewer (downloaden voor offlinegebruik).
Van start gaan
Nadat u contact hebt opgenomen indexeren wij uw website en schatten we in hoeveel ruimte en CPU-tijd het archiveren van uw website kost. U ontvangt vervolgens een offerte.
Na het accepteren van onze offerte kunnen we binnen enkele dagen beginnen met het archiveren van uw website. Uw website hoeft in de meeste gevallen niet aangepast te worden en we hebben geen toegang nodig tot uw CMS: we crawlen de publiek beschikbare pagina's zoals uw bezoekers uw website ook kunnen bekijken.
U ontvangt vervolgens een link naar de pagina waarop uw archieven te downloaden en te browsen zijn door eenieder.
Details
De kernpunten.
Opslagformaat
We kunnen archieven opslaan in het .warc formaat (ISO 28500, conform de richtlijn archiveren overheidswebsites) of .wacz (moderner formaat, inclusief zoekenfunctie).
Voor elk CMS
Onze crawler ziet de output van uw CMS, de pagina's, alsof het een bezoeker is. Het maakt dus niet uit welk CMS er achter uw website zit.
Opslag in Nederland
De primaire opslagplaats van onze webarchieven is een cloudplatform in Nederland.
Open-source systeem
Wij bouwen op Linux, ZFS, BTRFS, Browsertrix, PYWB, Replayweb, Nginx. De output is dus te reproduceren en controleren.
Gunstig geprijsd
Mede dankzij deduplicatie op bitniveau en het gebruik van open-source software kunnen we gunstige tarieven hanteren.
Integriteit & checksums
Van alle .warc archieven wordt na het genereren een checksum gemaakt en opgeslagen in een los tekstbestand in dezelfde map. De .wacz archieven hebben intern ook checksums.