Go to file
2019-02-26 20:00:19 +01:00
bundesdata_markup_nlp fixed data for markup 2019-02-22 23:52:59 +01:00
docs Initial commit 2019-02-21 19:29:44 +01:00
.gitignore fixed data for markup 2019-02-22 23:52:59 +01:00
README.md Update README.md 2019-02-26 20:00:19 +01:00
requirements.txt Initial commit 2019-02-21 19:29:44 +01:00

Input and Output data

The input and output data of this software can be found here: https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_data

Master_thesis

Master Thesis Repository.

Benötigte Pakete und Sprachen

  • Python 3.7+
  • Python Pakete werden mittels requirements.txt installiert. Siehe Installation Schritt 2.

Installation

  1. Stellen sie sicher, dass das Paket python3.7-dev installiert ist. Wenn nicht: sudo apt-get install python3.7-dev
  2. Installieren Sie virtualenv mittels pip install virtualenv. Oder dem jeweiligen package manager der eigenen Distribution.
  3. Installieren Sie JS Beautifier systemweit sudo npm -g install js-beautify (Optional! Wenn nicht gewünscht, kann der Schritt übersprungen werden. Der Schritt welches dieses Paket während der Auszeichnung benötigt kann übersprungen werden. Allerdings gibt es so keine schön formatierten XML-Dateien.)
  4. Erstelle virtual environment für das Projekt mittels virtualenv --python=python3.7 path/to/folder
  5. Aktivieren der virtuellen Umgebung mittels source path/to/folder/bin/activate
  6. cd verzeichnis/des/repository
  7. Installieren der Abhängigkeiten mit pip install -r requirements.txt.

Scriptaufrufe Beispiele:

@Home

  • source ~/VirtualEnvs/bundesdata/bin/activate
  • cd ~/Documents/Eigene\ geschriebene\ Programme/master_thesis/bundesdata/

Development Data

Metadata -python markup/metastructure.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data/development_data_xml -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data

Speakers

  • python markup/speakers.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data/xml_new_metadata_structure -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data

Full data

Metadata -python markup/metastructure.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/protocols_raw_xml -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data

Speakers

  • python markup/speakers.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/xml_new_metadata_structure -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data

@Uni

Development Data

  • source /home/stephan/VirtualEnvs/bundesdata/bin/activate
  • cd /home/stephan/Repos/master_thesis/bundesdata

Speakers

  • python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/working_data/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data

Metadata -python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/working_data/development_data_xml -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data

Test Data

  • source /home/stephan/VirtualEnvs/bundesdata/bin/activate
  • cd /home/stephan/Repos/master_thesis/bundesdata

Speakers

  • python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/working_data/test/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data/test

Metadata -python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/working_data/test_data_xml -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data/test

Full data

  • source /home/stephan/VirtualEnvs/bundesdata/bin/activate
  • cd /home/stephan/Repos/master_thesis/bundesdata

Speakers

  • python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data

Metadata -python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/protocols_raw_xml -f *.xml -o /home/stephan/Repos/master_thesis/data