Toegankelijkheid

Skip to main content

Informatie

Wij verzorgen sinds 2011 websites voor overheden en zijn gespecialiseerd in website archivering.

Info

Meer weten?

Wilt u informatie ontvangen over het archiveren van uw websites en de kosten? Neem vrijblijvend contact op.

Meer weten?

Wilt u informatie ontvangen over het archiveren van de website van uw organisatie? Neem geheel vrijblijvend contact op.

  • NL dienstverlener

  • ISO 28500
  • Betaalbaar
  • Open-source

Algemene informatie

Webarchivaris is een dienst van Als een Rode Lap (KVK 53581792), bestaand sinds 2011. Wij zijn gespecialiseerd in het bouwen van websites met CMS, het verzorgen van webhosting en alle techniek die er bij komt kijken. Onze klanten zijn van MKB tot semi-overheid. Zo ontdekten we dat er vraag is naar een betaalbare oplossing voor het laten archiveren van websites. Dit is iets dat tot nu toe voornamelijk in handen was van 1 grote partij. Naar ons inzicht kan website archivering goedkoper, transparanter en beter. Onze technische kennis van webhosting, websites en servers komt hier goed bij van pas.
Meer over ons.

Wilt u kosteneffectief uw websites laten archiveren door een betrouwbare, transparante partij? Dan bent u bij ons aan het juiste adres.

Over website archivering

Website archivering is relevant voor elke website in het publieke of zakelijke domein waarop informatie gepubliceerd is die in de toekomst, ongeacht wijzigingen op de website, vindbaar moet blijven. Bijvoorbeeld puur als losstaand informatie-archief, maar eventueel ook als bewijslast. Afhankelijk van uw wensen kunnen er dagelijks, wekelijks, maandelijks of jaarlijks snapshots gemaakt worden van uw website die vervolgens 10 of 20 jaar bewaard kunnen blijven.

Deze snapshots worden opgeslagen conform de internationale standaard (ISO 28500 .warc 1.0 archief) en zijn als bestand te downloaden maar ook live te bekijken in de browser middels onze live viewer. Daarmee kunnen snapshots van uw website gebrowsd worden alsof het uw actuele website is (d.w.z. knoppen, links en pagina's zijn volledig werkzaam).

De 3 componenten

  • Een crawler die uw website bezoekt en de pagina's omzet naar een ISO 28500 .warc archief.
  • Een assetstorage (opslag) waar alle .warc archieven worden opgeslagen en waar van elk archief een CJDX indexbestand wordt gemaakt en per bestand een MD5 hash voor integriteitscontrole.
  • Een live viewer waar websites per datum terug te kijken zijn. Hierbij bekijkt u live de inhoud van de gecrawlde .warc archieven en kunt u over de opgeslagen pagina's browsen.

Primaire opslag binnen NL

Alle .warc archieven worden, zoals de richtlijn archiveren overheidswebsites voorschrijft, opgeslagen zonder compressie (dus geen .gz op het eind). Dit om te voorkomen dat er een compressiemethode wordt toegepast die over 20 jaar niet meer courant is waardoor de archieven niet meer te openen zouden zijn.

De onderdelen van de primaire opslag, dus ook de assetstorage, bevinden zich op Nederlands grondgebied. Hierdoor werkt alles efficiënt en snel en is er geen buitenlandse wetgeving van toepassing.

Back-ups

Van alle .warc website archieven wordt dagelijks een back-up gemaakt naar een off-site schijf (binnen Europa). In het onwaarschijnlijke geval dat de primaire opslaglocatie, waarin zich 2 onafhankelijke opslagmedia bevinden zou afbranden dan hebben we dus nog steeds een kopie van uw website archieven.

Beveiliging

Onze oplossing draait op een server binnen een beveiligde locatie. Voor fysieke toegang is authenticatie vereist. Daarnaast gebruiken we op de server zo min mogelijk digitale standaardpoorten en is toegang beveiligd met wachtwoord.

De .warc website archieven worden niet beveiligd met encryptie, omdat daarmee de archieven alsnog niet zouden voldoen aan de richtlijn archiveren overheidswebsites (geen encryptie of compressie toegestaan). Daarnaast is alle data die er gecrawled wordt sowieso publiek toegangkelijk op de website. Delen van websites waarvoor een inlog noodzakelijk is worden niet gecrawled.

Exporteren van archieven

Als opdrachtgever krijgt u indien gewenst kosteloos toegang tot uw .warc archieven via FTP (File Transfer Protocol). FTP is de courante wijze om veel en grote bestanden te downloaden vanaf een server. U kunt dus op elk moment uw .warc archieven downloaden om ze zelf te bewaren, te bekijken of naar een andere dienst te uploaden. Ook kunt u via een web interface individuele .warc webarchieven opzoeken en downloaden. Kortom; wij doen niet aan vendor lock in. U zit niet vast aan ons.

Metadata

De .warc website archief bestanden worden opgeslagen met de volgende metadata:

Het .warc infoblok:

WARC/1.1
WARC-Filename: *
WARC-Date: JJJJ-MM-DDTHH:MM:SS.MSSZ
WARC-Type: warcinfo
WARC-Record-ID: <urn:uuid:*-*-*-*-*>
Content-Type: application/warc-fields
Content-Length: *
software: *

software: Browsertrix-Crawler 1.2.4 (with warcio.js *)
format: WARC File Format 1.1
operator: webarchivaris-nl

Het .warc response veld:

WARC/1.1
WARC-Page-ID: *-*-*-*-*
WARC-Resource-Type: document
WARC-JSON-Metadata: {"ipType":"Public","cert":{"issuer":"*","ctc":"*"}}
WARC-Target-URI: *
WARC-Date: JJJJ-MM-DDTHH:MM:SS.MSSZ
WARC-Type: response
WARC-Record-ID: <urn:uuid:*-*-*-*-*>
Content-Type: application/http; msgtype=response
WARC-Payload-Digest: sha256:*
WARC-Block-Digest: sha256:*
Content-Length: *

Voorbeeld van een response:

HTTP/1.1 200 OK
content-length: *
content-type: text/html; charset=UTF-8
date: Thu, 25 Jul 2024 09:01:12 GMT
link: <*>; rel="*", <*>; rel="alternate"; title="JSON"; type="application/json", <*>; rel=shortlink
server: Apache/2
vary: Accept-Encoding,User-Agent
x-orig-content-encoding: gzip

[hier verdere content]

Rapportages

Indien gewenst kan een rapportagefunctie geactiveerd worden die na elke crawl een e-mail stuurt met daarin:

  • Welke website er gecrawled is.
  • Op welk tijdstip dit gebeurd is.
  • Hoe groot het laatste archief is.
  • Hoe groot uw totale archief is.
Scroll naar: