mirror of
https://gitlab.ub.uni-bielefeld.de/sfb1288inf/nopaque.git
synced 2024-11-14 16:55:42 +00:00
.. | ||
Dockerfile | ||
nlp | ||
README.md | ||
spacy_nlp |
vre_nlp_node
Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur linguistischen Datenverarbeitung (NLP) zur Verfügung. Es werden Textdateien entgegengenommen und verticalized text-Dateien ausgegeben.
Dockerimage erstellen
Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.
docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node .
Nutzung
Starten eines Dockercontainers
docker run \
--name <containername> \
-dit \
-v <datalocation>/files_for_nlp:/root/files_for_nlp \
-v <datalocation>/files_from_nlp:/root/files_from_nlp \
gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node
Daten zur linguistischen Datenverarbeitung in das Eingabeverzeichnis kopieren
cp <textfile1> <textfile2> ... <textfilen> <datalocation>/files_for_nlp
Linguistische Datenverarbeitung starten
docker exec -it <containername> ocr -i /root/files_for_nlp -o /root/files_from_nlp -l <languagecode>
Valide Angaben für <languagecode>
sind:
- de (Deutsch)
- en (Englisch)
- es (Spanish)
- fr (Französisch)
- pt (Portugisisch)
Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis <datalocation>/files_from_nlp
zur Verfügung.