Moin,
arbeite aktuell an einem Archivier-/Sortiersystem für gescannte Dokumente. Gehen wir davon aus, dass 1000 Seiten eingescannt werden woraus ein 1000 seitiges PDF entsteht. Jetzt gehe ich her, zerteile das PDF auf seine einzelnen Seiten, konvertiere jede in ein TIF und lese die QR-Codes aus um zusammengehörige Seiten wieder zu einem einzelnen PDF zu mergen. Da die zu scannenden Seiten nicht immer von mir selbst gedruckt werden und sich daher die Qualität stark unterscheiden kann kommt es vor, dass nicht immer der QR-Code erkannt bzw. ausgelesen wird.
Jetzt habe ich allerdings eine Webseite gefunden, die so ein Beispiel für ein nicht auslesbaren QR, trotzdem korrekt auslesen konnte (online-barcode-reader.inliteresearch.com). Da würde ich auch gern hin kommen.
Mein Vorgehen aktuell ist wie folgt:
1. PDF zerteilen
Code:
pdftk ${PDF_TEMP} burst output ${HOMEDIR}/${PDF_REAL_FILENAME}_%05d.pdf
2. PDF in TIF konvertieren
Code:
convert -monochrome -density 495 ${line_temp} ${HOMEDIR}/${TIFF_FILENAME}.tif
3. QR-Code aus TIF auslesen
4. TIF in TXT konvertieren*
Code:
tesseract ${line} ${HOMEDIR}/${FILENAME_BLANK}
(*) Sollte 3. fehlschlagen, wird versucht in TXT zu konvertieren und daraus per REGEX die gewünschten Inhalte zu finden/auszulesen. Funktioniert gut aber nicht zuverlässig genug.
Da es sich um sehr sensitive Daten handelt, kommt ein externer Dienstleister (API) nicht in Frage.
Jetzt ist die Frage... welche Möglichkeiten bleiben mir um das ganze noch weiter zu optimieren und alle QR-Codes zuverlässig ausgelesen zu bekommen.
Danke vorab!
Gruß