nopaque/vre_ocr_node
Patrick Jentsch 86557443a2 Add prototype
2019-06-03 14:57:09 +02:00
..
Dockerfile Add prototype 2019-06-03 14:57:09 +02:00
hocrtotei Add prototype 2019-06-03 14:57:09 +02:00
ocr Add prototype 2019-06-03 14:57:09 +02:00
README.md Add prototype 2019-06-03 14:57:09 +02:00

vre_ocr_node

Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur automatischen Zeichenerkennung zur Verfügung. Es werden PDF-Dateien entgegengenommen und PDF-Dateien, TEI konforme XML-Dateien und Textdateien ausgegeben.

Funktionsweise

Eingabedateien durchlaufen eine Verarbeitungsroutine, die in Form einer Pipeline realisiert wurde. Diese Pipeline besteht aus drei Schritten:

  1. Jede PDF-Datei aus dem Eingabeverzeichnis wird in einzelne Seiten aufgespalten.
  2. Die resultierenden Dateien aus Schritt 1 werden durch eine automatische Texterkennung (OCR) weiterverarbeitet.
  3. Die verarbeiteten Einzelseiten werden wieder zusammenführt.

Dockerimage erstellen

Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.

docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node .

Nutzung

Starten eines Dockercontainers

docker run \
  --name <containername> \
  -dit \
  -v <datalocation>/files_for_ocr:/root/files_for_ocr \
  -v <datalocation>/files_from_ocr:/root/files_from_ocr \
  gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node

Daten zur Texterkennung in das Eingabeverzeichnis kopieren

cp <pdffile1> <pdffile2> ... <pdffilen> <datalocation>/files_for_ocr

Texterkennung starten

docker exec -it <containername> ocr -i /root/files_for_ocr -o /root/files_from_ocr -l <languagecode>

Valide Angaben für <languagecode> sind:

  • deu (Deutsch)
  • deu_frak (Deutsch Fraktur)
  • eng (English)
  • enm (Mittelenglisch)
  • fra (Französisch)
  • frm (Mittelfranzösisch)
  • por (Portugisisch)
  • spa (Spanish)

Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis <datalocation>/files_from_ocr zur Verfügung.