nopaque/vre_ocr_node/README.md

# vre_ocr_node
Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur automatischen Zeichenerkennung zur Verfügung. Es werden PDF-Dateien entgegengenommen und PDF-Dateien, TEI konforme XML-Dateien und Textdateien ausgegeben.

## Funktionsweise
Eingabedateien durchlaufen eine Verarbeitungsroutine, die in Form einer Pipeline realisiert wurde. Diese Pipeline besteht aus drei Schritten:
1. Jede PDF-Datei aus dem Eingabeverzeichnis wird in einzelne Seiten aufgespalten.
2. Die resultierenden Dateien aus Schritt 1 werden durch eine automatische Texterkennung (OCR) weiterverarbeitet.
3. Die verarbeiteten Einzelseiten werden wieder zusammenführt.

## Dockerimage erstellen
Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.
```bash
docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node .
```

## Nutzung

### Starten eines Dockercontainers
```bash
docker run \
  --name <containername> \
  -dit \
  -v <datalocation>/files_for_ocr:/root/files_for_ocr \
  -v <datalocation>/files_from_ocr:/root/files_from_ocr \
  gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node
```

### Daten zur Texterkennung in das Eingabeverzeichnis kopieren
```bash
cp <pdffile1> <pdffile2> ... <pdffilen> <datalocation>/files_for_ocr
```

### Texterkennung starten
```bash
docker exec -it <containername> ocr -i /root/files_for_ocr -o /root/files_from_ocr -l <languagecode>
```
Valide Angaben für `<languagecode>` sind:
* deu (Deutsch)
* deu_frak (Deutsch Fraktur)
* eng (English)
* enm (Mittelenglisch)
* fra (Französisch)
* frm (Mittelfranzösisch)
* por (Portugisisch)
* spa (Spanish)

Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis `<datalocation>/files_from_ocr` zur Verfügung.