-
NL dienstverlener
-
ISO 28500
-
Betaalbaar
-
Open-source
Overzicht
-
Hardware
Om grote websites te kunnen archiveren hebben we een schaalbaar hardware platform samengesteld dat zowel voldoet aan de eisen voor CPU-bronnen voor het crawlen van websites en indexeren voor 20-jaar aan webarchieven, als de eisen voor opslag-bronnen voor het bewaren van webarchieven die per keer soms meerdere gigabytes groot zijn. Lees meer. -
Software
De software zorgt voor het crawlen van websites, het verpakken in .warc webarchieven, het opslaan op de juiste plek en het indexeren en ontsluiten van de data in de archieven. Lees meer. - Back-up
Een geheel afzonderlijk systeem waarin alle webarchieven in cold-storage staan. Dat is trage, maar betrouwbare opslag waar alle archieven naartoe gekopieerd worden voor het geval er een incident plaatsvind met het primaire platform. Vanaf de back-up locatie kunnen de webarchieven hersteld worden, eventueel zelfs op een geheel nieuw primair platform. Lees meer.
Hardware
- Geolocatie van primaire platform: Nederland.
- Per node een 1 Gbit/s+ verbinding met het KPN netwerk.
- Snelle AMD Ryzen multi-core CPU's voor het crawlen en ontsluiten.
- Een dynamisch schaalbaar ZFS of Btrfs bestandssysteem verdeeld over meerdere opslagpools.
- Primaire fast storage: NVMe opslagschijven voor responsieve ontsluiting van gearchiveerde websites.
- Secundaire storage (back-up): conventionele HDD's in Raid 1.
- Tertiaire storage: Synology C2 remote opslag.
Software
Wij maken voor de verschillende onderdelen op ons platform gebruik van open-source software.
Het bestandssysteem
De opslag van vele archieven per dag, voor jarenlang, vereist een veilig, getest en flexibel opslagsysteem dat voorziet in de basis voor deduplicatie en compressie op bitniveau. Voor de opslag op ons primaire platform gebruiken wij OpenZFS op Linux.
OpenZFS:
GitHub: https://github.com/openzfs/zfs
Het OS: Ubuntu
De basis van ons website archiveringsplatform wordt gevormd door Ubuntu Linux. Ubuntu Linux is stabiel, uitgebreid en is makkelijk te optimaliseren voor allerlei gebruiksdoeleinden.
Ubuntu:
GitHub: https://github.com/canonical
Homepage: https://ubuntu.com/
Crawlers
Voor het maken van website archieven gebruiken we zowel Wget (standaard aanwezig in de meeste Linux distro's) als Browsertrix. Aangezien er soms verschillen zijn in hoe goed een website door bepaalde software gearchiveerd kan worden maken we hiervoor per website een keuze in. Beide softwarepakketten downloaden elke pagina van de te archiveren website en verpakken deze in een webarchief.
Wget:
GitHub: https://github.com/mirror/wget
Homepage: https://www.gnu.org/software/wget/
Browsertrix:
GitHub: https://github.com/webrecorder/browsertrix-crawler
Afspelen / terugkijken / ontsluiten
Voor het afspelen/terugkijken van een webarchief gebruiken we zowel pywb als Replayweb.page. De kernfunctie van beide softwarepakketten is het openen van webarchief bestanden en de inhoud tonen als webpagina zoals die was tijdens het maken van het webarchief. Per project kiezen we de meest geschikte software.
pywb:
GitHub: https://github.com/webrecorder/pywb
Homepage: https://pywb.readthedocs.io/en/latest/
Replayweb.page:
GitHub: https://github.com/webrecorder/replayweb.pageHomepage: https://replayweb.page/docs/
Weergeven en downloaden individuele .warc archieven
Voor het tonen van lijsten met archiefbestanden vanwaar direct individuele bestanden gedownload kunnen worden gebruiken we de directory index listing functie in de Nginx webserver.
Nginx:
GitHub: https://github.com/nginx
Homepage: https://www.nginx.com/
Overdracht via FTP
Voor de overdracht van meerdere .warc archieven tegelijk, bijvoorbeeld bij een overzetting naar een e-depot, gebruiken we de tnftp FTP server. Toegang op aanvraag, alleen voor de opdrachtgever.
tnftp:
Github: https://github.com/hharte/tnftp
Back-up
Tenzij anders overeengekomen staat uw data op een primair platform met snelle NVMe opslag.
Dagelijks wordt alle data naar een secundair opslagsysteem gekopieerd. Deze werkt met conventionele HDD's die in Raid 1 geconfigureerd zijn (dus binnen dit systeem staat de alle data op tenminste 2 schijven).
Vervolgens wordt alle data wekelijks gekopieerd naar Synology C2. Een betrouwbare cloudopslag in een datacenter in Frankfurt. Daar staat de data ook weer op meerdere schijven.
Door deze back-up strategie is het bijna onmogelijk dat data verloren raakt (maar nooit helemaal onmogelijk). Het is aan u om te beoordelen of het risico op dataverlies met deze back-upstrategie voldoende verkleind is. Er vind bij dataverlies geen restitutie plaats. Wilt u meer zekerheid? Dan kunnen we een oplossing op maat realiseren met nog meer redundantie of u kunt zelf periodiek de .warc archieven downloaden naar uw eigen opslagsysteem.