nopaque/vre_nlp_node
Patrick Jentsch 86557443a2 Add prototype
2019-06-03 14:57:09 +02:00
..
Dockerfile Add prototype 2019-06-03 14:57:09 +02:00
nlp Add prototype 2019-06-03 14:57:09 +02:00
README.md Add prototype 2019-06-03 14:57:09 +02:00
spacy_nlp Add prototype 2019-06-03 14:57:09 +02:00

vre_nlp_node

Dieses Repository stellt ein Dockerfile zur Erstellung eines Dockerimages zur linguistischen Datenverarbeitung (NLP) zur Verfügung. Es werden Textdateien entgegengenommen und verticalized text-Dateien ausgegeben.

Dockerimage erstellen

Die GitLab Registry stellt ein automatisch erstelltes Dockerimage zur Verfügung, das stehts die neusten Änderungen beinhaltet. Das Dockerimage kann aber auch lokal erstellt werden, dazu muss folgender Befehl ins Terminal eingegeben werden.

docker build -t gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node .

Nutzung

Starten eines Dockercontainers

docker run \
  --name <containername> \
  -dit \
  -v <datalocation>/files_for_nlp:/root/files_for_nlp \
  -v <datalocation>/files_from_nlp:/root/files_from_nlp \
  gitlab.ub.uni-bielefeld.de:4567/pjentsch/vre_nlp_node

Daten zur linguistischen Datenverarbeitung in das Eingabeverzeichnis kopieren

cp <textfile1> <textfile2> ... <textfilen> <datalocation>/files_for_nlp

Linguistische Datenverarbeitung starten

docker exec -it <containername> ocr -i /root/files_for_nlp -o /root/files_from_nlp -l <languagecode>

Valide Angaben für <languagecode> sind:

  • de (Deutsch)
  • en (Englisch)
  • es (Spanish)
  • fr (Französisch)
  • pt (Portugisisch)

Nach Beendigung des Vorgangs, stehen die aufbereitet Daten im Verzeichnis <datalocation>/files_from_nlp zur Verfügung.