Paperless‑ngx: Digitale Dokumentenverwaltung für Selbsthoster

Paperless‑ngx: Digitale Dokumentenverwaltung für Selbsthoster

Was es ist, warum es so beliebt ist – und wie man es richtig installiert

Digitale Dokumentenverwaltung ist längst kein Luxus mehr, sondern eine Notwendigkeit. Rechnungen, Verträge, Briefe, Belege, Garantien – alles soll auffindbar, durchsuchbar und sicher archiviert sein. Viele greifen dafür zu Cloud‑Diensten wie Dropbox, Google Drive oder Evernote. Wer jedoch Wert auf Datenschutz, Selbstbestimmung und lokale Kontrolle legt, landet früher oder später bei Paperless‑ngx.

Paperless‑ngx ist eine moderne, leistungsfähige Open‑Source‑Lösung, die genau dieses Problem löst: Dokumente automatisch erfassen, verschlagworten, durchsuchen und langfristig archivieren – komplett selbst gehostet.


Was ist Paperless‑ngx?

Paperless‑ngx ist ein Fork des ursprünglichen Projekts Paperless und wird heute aktiv weiterentwickelt. Es handelt sich um ein webbasiertes Dokumentenmanagementsystem (DMS), das folgende Aufgaben übernimmt:

  • Dokumente importieren (Scanner, E‑Mail, Upload, Ordnerüberwachung)
  • OCR‑Texterkennung durchführen
  • Dokumente automatisch klassifizieren
  • Tags, Korrespondenten, Dokumenttypen zuweisen
  • Volltextsuche über alle Dokumente
  • PDF‑Optimierung und Metadatenverwaltung
  • API‑Zugriff für Automatisierungen

Das Ziel ist klar:

Papierlos werden – ohne Cloud, ohne Abhängigkeiten, ohne Kontrollverlust.

Wofür kann man Paperless‑ngx einsetzen?

Paperless‑ngx eignet sich für:

  • Privathaushalte
    Rechnungen, Versicherungen, Verträge, Arztbriefe, Steuerunterlagen.
  • Kleine Unternehmen
    Eingangsrechnungen, Lieferscheine, Kundenkorrespondenz, Buchhaltung.
  • Vereine und Organisationen
    Mitgliederverwaltung, Protokolle, Verträge, Förderbescheide.
  • Archivierung von E‑Mails
    Über IMAP‑Import oder Weiterleitung.
  • Automatisierte Workflows
    z. B. mit Home‑Assistant, n8n, Zapier‑Alternativen oder eigenen Skripten.

Stärken von Paperless‑ngx

  • Open Source – keine Lizenzkosten, keine Abhängigkeiten
  • Selbst gehostet – volle Datenkontrolle
  • Sehr gute OCR‑Erkennung dank Tesseract
  • Automatische Klassifizierung (Machine Learning)
  • Schnelle Volltextsuche
  • Intuitive Weboberfläche
  • API‑fähig für Automatisierungen
  • Docker‑freundlich
  • Aktive Community

Schwächen und Grenzen

  • Kein klassisches Enterprise‑DMS
    Keine Workflows, keine Versionierung, keine Benutzerrollen wie in großen Systemen.
  • OCR kann bei schlechten Scans schwächeln
    (typisch für Tesseract, aber meist ausreichend)
  • Kein integrierter Filesync
    Paperless ist kein Ersatz für Nextcloud oder Pydio.
  • Kein mobiles Scannen
    Man nutzt externe Apps wie Adobe Scan, Microsoft Lens oder OpenScan.

Paperless‑ngx und OCS / Pydio – wie passt das zusammen?

Paperless‑ngx ist kein Filesharing‑System.
Es ergänzt Systeme wie:

  • Nextcloud
  • Pydio Cells
  • Seafile
  • Syncthing

Während diese Systeme Dateien synchronisieren, konzentriert sich Paperless auf:

  • OCR
  • Metadaten
  • Klassifizierung
  • Archivierung
  • Suche

Viele Nutzer kombinieren:

  • Pydio/Nextcloud für Dateisync
  • Paperless‑ngx für Dokumentenverwaltung

Beispiel‑Workflow:

  1. Handy scannt Dokument → landet in Nextcloud/Pydio
  2. Nextcloud‑Ordner wird von Paperless überwacht
  3. Paperless importiert, erkennt, verschlagwortet
  4. Dokument ist durchsuchbar und archiviert

Installation mit Docker – der Standardweg

Paperless‑ngx wird fast immer per Docker installiert.
Ein typisches docker-compose.yml sieht so aus:

version: "3.4"
services:
  broker:
    image: redis:7
    restart: unless-stopped

  db:
    image: postgres:15
    restart: unless-stopped
    environment:
      POSTGRES_DB: paperless
      POSTGRES_USER: paperless
      POSTGRES_PASSWORD: paperless

  webserver:
    image: ghcr.io/paperless-ngx/paperless-ngx:latest
    restart: unless-stopped
    depends_on:
      - db
      - broker
    environment:
      PAPERLESS_REDIS: redis://broker:6379
      PAPERLESS_DBHOST: db
    ports:
      - "8000:8000"
    volumes:
      - ./data:/usr/src/paperless/data
      - ./media:/usr/src/paperless/media
      - ./consume:/usr/src/paperless/consume

Danach:

docker compose up -d

Paperless läuft dann unter:

http://SERVER-IP:8000

Typische Fallstricke – und wie man sie vermeidet

1. Reverse‑Proxy‑Probleme (Nginx, Traefik, Caddy)

Paperless nutzt WebSockets und API‑Requests.
Fehlende Header führen zu:

  • weiße Seite
  • Login hängt
  • API‑Fehler
  • 502/504

Wichtig sind:

proxy_set_header X-Forwarded-Proto https;
proxy_set_header X-Forwarded-Host $host;
proxy_set_header Upgrade $http_upgrade;
proxy_set_header Connection $connection_upgrade;

2. IPv6‑Chaos

Viele Browser bevorzugen IPv6.
Wenn der VPS IPv6 hat, der Tunnel aber nicht → Timeout.

3. DNS‑Caching / Alt‑Svc / HSTS

Browser cachen:

  • DNS
  • HTTP/2‑Upgrade‑Infos
  • TLS‑Sessions

Ein kaputter Eintrag führt zu Timeouts, obwohl curl funktioniert.

4. OPNsense / Firewall

Hairpin‑NAT, Policy‑Routing oder DNS‑Rebind‑Schutz können Probleme verursachen – aber nur, wenn der LAN‑Client einen anderen Weg nimmt als der Server.

5. Docker‑Netzwerke

Wenn Nginx auf dem Host läuft, Paperless aber in Docker, muss man sicherstellen, dass:

  • Paperless auf 0.0.0.0 lauscht
  • Nginx auf 127.0.0.1:8000 zugreifen kann

Problem beim Aufruf der Website: Warum es so kompliziert wurde

Wir haben ein klassisches, aber tückisches Szenario erlebt:

  • Extern funktionierte Paperless sofort.
  • Vom Server selbst funktionierte es auch.
  • Nur LAN‑Browser zeigten Timeouts.
  • curl funktionierte aber – sogar vom LAN.

Das führte uns durch:

  • Reverse‑Proxy‑Debugging
  • IPv6‑Tests
  • OPNsense‑Regeln
  • Routing‑Analysen
  • DNS‑Checks
  • Browser‑Caches

Die Ursache war am Ende:

Ein Browser‑Cache‑Zustand (Alt‑Svc / DNS / TLS), der trotz Inkognito weiterlebte.

Sobald der Cache verworfen wurde, funktionierte Paperless sofort – ohne eine einzige Änderung am Server.

Das zeigt:
Nicht jedes Netzwerkproblem ist wirklich ein Netzwerkproblem.


Fazit

Paperless‑ngx ist eines der besten Open‑Source‑Tools für private und kleine professionelle Dokumentenverwaltung. Es ist leistungsfähig, modern, aktiv gepflegt und hervorragend für Selbsthoster geeignet. Die Kombination aus OCR, automatischer Klassifizierung und Volltextsuche macht es zu einem echten „digitalen Aktenschrank“.

Die Installation per Docker ist einfach – die Integration in ein bestehendes Netzwerk mit Reverse‑Proxy, Tunnel, Firewall und IPv6 kann dagegen knifflig sein. Viele Probleme entstehen nicht durch Paperless selbst, sondern durch:

  • Browser‑Caches
  • IPv6‑Routen
  • Reverse‑Proxy‑Header
  • DNS‑Besonderheiten
  • Firewall‑Regeln

Hat man diese Hürden einmal genommen, läuft Paperless‑ngx stabil, schnell und zuverlässig – und man möchte nie wieder ohne leben.