.. | ||
Dockerfile | ||
hocrtotei | ||
ocr | ||
README.md |
vre_ocr_node
Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur automatischen Zeichenerkennung zur Verfügung. Es werden PDF-Dateien entgegengenommen und PDF-Dateien, TEI konforme XML-Dateien und Textdateien ausgegeben.
Funktionsweise
Eingabedateien durchlaufen eine Verarbeitungsroutine, die in Form einer Pipeline realisiert wurde. Diese Pipeline besteht aus drei Schritten:
- Jede PDF-Datei aus dem Eingabeverzeichnis wird in einzelne Seiten aufgespalten.
- Die resultierenden Dateien aus Schritt 1 werden durch eine automatische Texterkennung (OCR) weiterverarbeitet.
- Die verarbeiteten Einzelseiten werden wieder zusammenführt.
Dockerimage erstellen
Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.
docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node .
Nutzung
Starten eines Dockercontainers
docker run \
--name <containername> \
-dit \
-v <datalocation>/files_for_ocr:/root/files_for_ocr \
-v <datalocation>/files_from_ocr:/root/files_from_ocr \
gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node
Daten zur Texterkennung in das Eingabeverzeichnis kopieren
cp <pdffile1> <pdffile2> ... <pdffilen> <datalocation>/files_for_ocr
Texterkennung starten
docker exec -it <containername> ocr -i /root/files_for_ocr -o /root/files_from_ocr -l <languagecode>
Valide Angaben für <languagecode>
sind:
- deu (Deutsch)
- deu_frak (Deutsch Fraktur)
- eng (English)
- enm (Mittelenglisch)
- fra (Französisch)
- frm (Mittelfranzösisch)
- por (Portugisisch)
- spa (Spanish)
Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis <datalocation>/files_from_ocr
zur Verfügung.