mirror of
https://gitlab.ub.uni-bielefeld.de/sfb1288inf/nopaque.git
synced 2024-12-27 03:44:19 +00:00
38 lines
1.4 KiB
Markdown
38 lines
1.4 KiB
Markdown
|
# vre_nlp_node
|
||
|
Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur linguistischen Datenverarbeitung (NLP) zur Verfügung. Es werden Textdateien entgegengenommen und verticalized text-Dateien ausgegeben.
|
||
|
|
||
|
## Dockerimage erstellen
|
||
|
Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.
|
||
|
```bash
|
||
|
docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node .
|
||
|
```
|
||
|
|
||
|
## Nutzung
|
||
|
|
||
|
### Starten eines Dockercontainers
|
||
|
```bash
|
||
|
docker run \
|
||
|
--name <containername> \
|
||
|
-dit \
|
||
|
-v <datalocation>/files_for_nlp:/root/files_for_nlp \
|
||
|
-v <datalocation>/files_from_nlp:/root/files_from_nlp \
|
||
|
gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node
|
||
|
```
|
||
|
|
||
|
### Daten zur linguistischen Datenverarbeitung in das Eingabeverzeichnis kopieren
|
||
|
```bash
|
||
|
cp <textfile1> <textfile2> ... <textfilen> <datalocation>/files_for_nlp
|
||
|
```
|
||
|
|
||
|
### Linguistische Datenverarbeitung starten
|
||
|
```bash
|
||
|
docker exec -it <containername> ocr -i /root/files_for_nlp -o /root/files_from_nlp -l <languagecode>
|
||
|
```
|
||
|
Valide Angaben für `<languagecode>` sind:
|
||
|
* de (Deutsch)
|
||
|
* en (Englisch)
|
||
|
* es (Spanish)
|
||
|
* fr (Französisch)
|
||
|
* pt (Portugisisch)
|
||
|
|
||
|
Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis `<datalocation>/files_from_nlp` zur Verfügung.
|