Ich habe seit längerem mit dem Gedanken gespielt mir einen Dokumentenscanner zu kaufen um diverse Dokumente elektronisch archivieren zu können.
Also habe ich mir mal auf  www.geizhals.at näher angeschaut was ich mir leisten will/kann. Dabei musste ich feststellen, dass die Dokumentenscanner doch eher teuer sind. Zusätzlich wollte ich natürlich noch wissen, welche der Geräte auch von Linux unterstützt sind. Eine Auflistung findet man auf der Webseite des Sane Projekts.
Nach einiger Zeit stand fest, dass ich mir entweder einen Fujitsu ScanSnap S300 oder den S1500 kaufen werde. Am Ende hat jedoch der Preis entschieden, da lt. Geizhals der günstigste S1500 mehr als doppelte vom S300 kostet.

Das war aber ein Fehler wie sich später noch herausstellen sollte. Lt. der SANE-Webseite wird der S300 “good” unterstützt. Ich dachte das reicht mir schon und habe mich dann dort nicht mehr weiter informiert. Als ich dann den S300 bei mir hatte und das erste Stück Papier einscannen wollte, wurde das Gerät nicht einfach als Plug-and-Play erkannt, wie ich es mir gedacht hatte.
Nach einer kurzen Recherche musste ich feststellen, dass ich für die Nutzung des S300 eine Datei aus dem Windowstreiber benötige. Die Erklärung dazu ist (soweit ich das richtig verstanden habe), dass beim S300 die Logik fast komplett im Treiber und nicht in der Hardware implementiert wurde. Wahrscheinlich ist dies auch ein Grund, warum dieser soviel günstiger als der S1500 ist.
Also habe ich meine Virtualbox mit Windows gestartet um den Treiber dort zu installieren. In der virtuellen Maschine kann ich ja den kompletten Funktionsumfang nutzen, wenn mir die Funktionen unter Linux nicht ganz reichen. Und außerdem benötigte ich ja noch die Datei um den Scanner unter Linux zum Laufen zu bringen.
Soweit zur Theorie. Ich habe nach vielfachen Versuchen aufgegeben den Treiber in der virtuellen Maschine zu installieren, da dies einfach nicht möglich war. Somit war der Scanner für mich nutzlos und nach längerem hin und her konnte ich das Gerät wieder zurückgeben.

In der Zwischenzeit hatte ich aber gesehen, dass der S1500 auf Ebay relativ günstig zu haben ist. Daher habe ich mir nach der Rückgabe des S300 den S1500 dort gekauft. Als ich dieses Gerät an mein Notebook mit Ubuntu 9.10 angesteckt hatte, wurde der Scanner sofort erkannt und auch die erste Testseite war mit XSane, dem unter Ubuntu vorinstallierten Scannprogramm, schnell gescannt.
Nach meinen ersten Tests musste ich aber feststellen, dass eine gescannte A4-Seite am unteren Rand abgeschnitten wird. Mit XSane hatte ich aber keine schnelle Lösung gefunden.
Da ich aber sowieso ein Freund der Kommandozeile bin, habe ich mich auf die Suche nach einem Kommandozeilen-Tool begeben und mit scanadf auch gefunden.

Dies ist unter Ubuntu 9.10 aber nicht installiert, findet sich aber in den Paketquellen. Daher ist die Installation auch sehr einfach:

sudo aptitude install sane

Doch wie finde ich jetzt meine Scanner und wie gebe ich diesen dem Kommando scanadf bekannt? Dazu gibt es bei scanadf einen Option, um sich alle erkannten Scanner anzeigen zu lassen:

scanadf -L

Damit ich jetzt sehe, welche Optionen mein S1500 anbietet, gebe ich folgendes ein:

scanadf --help -d "fujitsu:ScanSnap S1500:303564"

Um jetzt eine ganze A4-Seite zu Scannen muss ich folgenden Befehl eingeben:

scanadf -d "fujitsu:ScanSnap S1500:303564" -v --page-height=298.009 -y 297.009

Der S1500 kann auch beidseitig scannen. Mit scanadf sieht das wie folgt aus:

scanadf -d "fujitsu:ScanSnap S1500:303564" -v --page-height=298.009 -y 297.009 \
--source="ADF Duplex"

Der eine oder andere hat sich sicher schon gefragt in welchem Format die gescannten Dokumente vorliegen. Die Seiten werden im Portable Bitmap Format (PBM) gespeichert. In diesem Format will man seine Dokumente aber nicht archivieren, da hier eine Seite schon 4MB groß sein kann.
Daher muss man nun noch die entstandenen PBM-Dateien in ein TIFF oder ein PDF konvertieren. Hier können die Programme potrace oder convert (aus dem Package imagemagick) verwendet werden.

Leider bin ich mir noch nicht sicher, welches Format die bessere Wahl ist. Und auch ein Versuch mit einer OCR-Software war leider nicht sehr zufriedenstellend.
Was ist euer bevorzugtes Format zur Archivierung von Dokumenten? TIFF oder PDF? Wäre hier für weitere Anregungen dankbar.