Open source website archivering

Open source en daardoor verifieerbaar en controleerbaar.

Wij maken voor de verschillende onderdelen op ons platform gebruik van open-source software. Hierdoor is altijd te verifiëren hoe de archieven tot stand zijn gekomen.

Het bestandssysteem
De opslag van vele archieven per dag, voor jarenlang, vereist een veilig, getest en flexibel opslagsysteem dat voorziet in de basis voor deduplicatie en compressie op bitniveau. Voor de opslag op ons primaire platform gebruiken wij OpenZFS en Btrfs op Linux.

OpenZFS:
GitHub: https://github.com/openzfs/zfs

Btrfs:
GitHub: https://github.com/btrfs

Het OS: Ubuntu server
De basis van ons website archiveringsplatform wordt gevormd door Ubuntu Linux. Ubuntu Linux is stabiel, uitgebreid en is makkelijk te optimaliseren voor allerlei gebruiksdoeleinden.

Ubuntu server:
GitHub: https://github.com/canonical
Homepage: https://ubuntu.com/

Crawlers
Voor het maken van website archieven gebruiken we zowel Wget (standaard aanwezig in de meeste Linux distro's) als Browsertrix. Aangezien er soms verschillen zijn in hoe goed een website door bepaalde software gearchiveerd kan worden maken we hiervoor per website een keuze in. Beide softwarepakketten downloaden elke pagina van de te archiveren website en verpakken deze in een webarchief.

Wget:
GitHub: https://github.com/mirror/wget
Homepage: https://www.gnu.org/software/wget/

Browsertrix:
GitHub: https://github.com/webrecorder/browsertrix-crawler

Afspelen / terugkijken / ontsluiten
Voor het afspelen/terugkijken van een webarchief gebruiken we zowel pywb als Replayweb.page. De kernfunctie van beide softwarepakketten is het openen van webarchief bestanden en de inhoud tonen als webpagina zoals die was tijdens het maken van het webarchief. Per project kiezen we de meest geschikte software.

pywb:
GitHub: https://github.com/webrecorder/pywb
Homepage: https://pywb.readthedocs.io/en/latest/

Replayweb.page:
GitHub: https://github.com/webrecorder/replayweb.pageHomepage: https://replayweb.page/docs/

Weergeven en downloaden individuele .warc archieven
Voor het tonen van lijsten met archiefbestanden vanwaar direct individuele bestanden gedownload kunnen worden gebruiken we de directory index listing functie in de Nginx webserver.

Nginx:
GitHub: https://github.com/nginx
Homepage: https://www.nginx.com/

Overdracht via FTP
Voor de overdracht van meerdere .warc archieven tegelijk, bijvoorbeeld bij een overzetting naar een e-depot, gebruiken we de tnftp FTP server. Toegang op aanvraag, alleen voor de opdrachtgever.

tnftp:
Github: https://github.com/hharte/tnftp