nopaque/vre_nlp_node/README.md
Patrick Jentsch 86557443a2 Add prototype
2019-06-03 14:57:09 +02:00

38 lines
1.4 KiB
Markdown

# vre_nlp_node
Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur linguistischen Datenverarbeitung (NLP) zur Verfügung. Es werden Textdateien entgegengenommen und verticalized text-Dateien ausgegeben.
## Dockerimage erstellen
Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.
```bash
docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node .
```
## Nutzung
### Starten eines Dockercontainers
```bash
docker run \
--name <containername> \
-dit \
-v <datalocation>/files_for_nlp:/root/files_for_nlp \
-v <datalocation>/files_from_nlp:/root/files_from_nlp \
gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node
```
### Daten zur linguistischen Datenverarbeitung in das Eingabeverzeichnis kopieren
```bash
cp <textfile1> <textfile2> ... <textfilen> <datalocation>/files_for_nlp
```
### Linguistische Datenverarbeitung starten
```bash
docker exec -it <containername> ocr -i /root/files_for_nlp -o /root/files_from_nlp -l <languagecode>
```
Valide Angaben für `<languagecode>` sind:
* de (Deutsch)
* en (Englisch)
* es (Spanish)
* fr (Französisch)
* pt (Portugisisch)
Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis `<datalocation>/files_from_nlp` zur Verfügung.