mirror of
https://gitlab.ub.uni-bielefeld.de/sfb1288inf/nopaque.git
synced 2025-01-30 19:39:02 +00:00
47 lines
1.9 KiB
Markdown
47 lines
1.9 KiB
Markdown
# vre_ocr_node
|
|
Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur automatischen Zeichenerkennung zur Verfügung. Es werden PDF-Dateien entgegengenommen und PDF-Dateien, TEI konforme XML-Dateien und Textdateien ausgegeben.
|
|
|
|
## Funktionsweise
|
|
Eingabedateien durchlaufen eine Verarbeitungsroutine, die in Form einer Pipeline realisiert wurde. Diese Pipeline besteht aus drei Schritten:
|
|
1. Jede PDF-Datei aus dem Eingabeverzeichnis wird in einzelne Seiten aufgespalten.
|
|
2. Die resultierenden Dateien aus Schritt 1 werden durch eine automatische Texterkennung (OCR) weiterverarbeitet.
|
|
3. Die verarbeiteten Einzelseiten werden wieder zusammenführt.
|
|
|
|
## Dockerimage erstellen
|
|
Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.
|
|
```bash
|
|
docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node .
|
|
```
|
|
|
|
## Nutzung
|
|
|
|
### Starten eines Dockercontainers
|
|
```bash
|
|
docker run \
|
|
--name <containername> \
|
|
-dit \
|
|
-v <datalocation>/files_for_ocr:/root/files_for_ocr \
|
|
-v <datalocation>/files_from_ocr:/root/files_from_ocr \
|
|
gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_ocr_node
|
|
```
|
|
|
|
### Daten zur Texterkennung in das Eingabeverzeichnis kopieren
|
|
```bash
|
|
cp <pdffile1> <pdffile2> ... <pdffilen> <datalocation>/files_for_ocr
|
|
```
|
|
|
|
### Texterkennung starten
|
|
```bash
|
|
docker exec -it <containername> ocr -i /root/files_for_ocr -o /root/files_from_ocr -l <languagecode>
|
|
```
|
|
Valide Angaben für `<languagecode>` sind:
|
|
* deu (Deutsch)
|
|
* deu_frak (Deutsch Fraktur)
|
|
* eng (English)
|
|
* enm (Mittelenglisch)
|
|
* fra (Französisch)
|
|
* frm (Mittelfranzösisch)
|
|
* por (Portugisisch)
|
|
* spa (Spanish)
|
|
|
|
Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis `<datalocation>/files_from_ocr` zur Verfügung. |