# vre_ocr_node Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur automatischen Zeichenerkennung zur Verfügung. Es werden PDF-Dateien entgegengenommen und PDF-Dateien, TEI konforme XML-Dateien und Textdateien ausgegeben. ## Funktionsweise Eingabedateien durchlaufen eine Verarbeitungsroutine, die in Form einer Pipeline realisiert wurde. Diese Pipeline besteht aus drei Schritten: 1. Jede PDF-Datei aus dem Eingabeverzeichnis wird in einzelne Seiten aufgespalten. 2. Die resultierenden Dateien aus Schritt 1 werden durch eine automatische Texterkennung (OCR) weiterverarbeitet. 3. Die verarbeiteten Einzelseiten werden wieder zusammenführt. ## Dockerimage erstellen Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden. ```bash docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node . ``` ## Nutzung ### Starten eines Dockercontainers ```bash docker run \ --name \ -dit \ -v /files_for_ocr:/root/files_for_ocr \ -v /files_from_ocr:/root/files_from_ocr \ gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node ``` ### Daten zur Texterkennung in das Eingabeverzeichnis kopieren ```bash cp ... /files_for_ocr ``` ### Texterkennung starten ```bash docker exec -it ocr -i /root/files_for_ocr -o /root/files_from_ocr -l ``` Valide Angaben für `` sind: * deu (Deutsch) * deu_frak (Deutsch Fraktur) * eng (English) * enm (Mittelenglisch) * fra (Französisch) * frm (Mittelfranzösisch) * por (Portugisisch) * spa (Spanish) Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis `/files_from_ocr` zur Verfügung.