# Input and Output data The input and output data of this software can be found here: https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_data # Master_thesis Master Thesis Repository. ## Benötigte Pakete und Sprachen - Python 3.7+ - Python Pakete werden mittels requirements.txt installiert. Siehe Installation Schritt 2. ## Installation 1. Stellen sie sicher, dass das Paket `python3.7-dev` installiert ist. Wenn nicht: `sudo apt-get install python3.7-dev` 1. Installieren Sie _virtualenv_ mittels `pip install virtualenv`. Oder dem jeweiligen package manager der eigenen Distribution. 2. Installieren Sie JS Beautifier systemweit `sudo npm -g install js-beautify` (Optional! Wenn nicht gewünscht, kann der Schritt übersprungen werden. Der Schritt welches dieses Paket während der Auszeichnung benötigt kann übersprungen werden. Allerdings gibt es so keine schön formatierten XML-Dateien.) 3. Erstelle virtual environment für das Projekt mittels `virtualenv --python=python3.7 path/to/folder` 4. Aktivieren der virtuellen Umgebung mittels `source path/to/folder/bin/activate` 5. `cd verzeichnis/des/repository` 6. Installieren der Abhängigkeiten mit `pip install -r requirements.txt`. ## Scriptaufrufe Beispiele: ### @Home - `source ~/VirtualEnvs/bundesdata/bin/activate` - `cd ~/Documents/Eigene\ geschriebene\ Programme/master_thesis/bundesdata/` #### Development Data **Metadata** -`python markup/metastructure.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data/development_data_xml -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data` **Speakers** - `python markup/speakers.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data/xml_new_metadata_structure -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data` #### Full data **Metadata** -`python markup/metastructure.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/protocols_raw_xml -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data` **Speakers** - `python markup/speakers.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/xml_new_metadata_structure -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data` ### @Uni #### Development Data - `source /home/stephan/VirtualEnvs/bundesdata/bin/activate` - `cd /home/stephan/Repos/master_thesis/bundesdata` **Speakers** - `python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/working_data/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data` **Metadata** -`python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/working_data/development_data_xml -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data` #### Test Data - `source /home/stephan/VirtualEnvs/bundesdata/bin/activate` - `cd /home/stephan/Repos/master_thesis/bundesdata` **Speakers** - `python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/working_data/test/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data/test` **Metadata** -`python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/working_data/test_data_xml -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data/test` #### Full data - `source /home/stephan/VirtualEnvs/bundesdata/bin/activate` - `cd /home/stephan/Repos/master_thesis/bundesdata` **Speakers** - `python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data` **Metadata** -`python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/protocols_raw_xml -f *.xml -o /home/stephan/Repos/master_thesis/data`