bundesdata_markup_nlp | ||
docs | ||
.gitignore | ||
README.md | ||
requirements.txt |
Master_thesis
Master Thesis Repository.
Benötigte Pakete und Sprachen
- Python 3.7+
- Python Pakete werden mittels requirements.txt installiert. Siehe Installation Schritt 2.
Installation
- Stellen sie sicher, dass das Paket
python3.7-dev
installiert ist. Wenn nicht:sudo apt-get install python3.7-dev
- Installieren Sie virtualenv mittels
pip install virtualenv
. Oder dem jeweiligen package manager der eigenen Distribution. - Installieren Sie JS Beautifier systemweit
sudo npm -g install js-beautify
(Optional! Wenn nicht gewünscht, kann der Schritt übersprungen werden. Der Schritt welches dieses Paket während der Auszeichnung benötigt kann übersprungen werden. Allerdings gibt es so keine schön formatierten XML-Dateien.) - Erstelle virtual environment für das Projekt mittels
virtualenv --python=python3.7 path/to/folder
- Aktivieren der virtuellen Umgebung mittels
source path/to/folder/bin/activate
cd verzeichnis/des/repository
- Installieren der Abhängigkeiten mit
pip install -r requirements.txt
.
Scriptaufrufe Beispiele:
@Home
source ~/VirtualEnvs/bundesdata/bin/activate
cd ~/Documents/Eigene\ geschriebene\ Programme/master_thesis/bundesdata/
Development Data
Metadata
-python markup/metastructure.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data/development_data_xml -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data
Speakers
python markup/speakers.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data/xml_new_metadata_structure -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/working_data
Full data
Metadata
-python markup/metastructure.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/protocols_raw_xml -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data
Speakers
python markup/speakers.py -p /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data/xml_new_metadata_structure -f *.xml -o /home/stephan/Documents/Eigene\ geschriebene\ Programme/master_thesis/data
@Uni
Development Data
source /home/stephan/VirtualEnvs/bundesdata/bin/activate
cd /home/stephan/Repos/master_thesis/bundesdata
Speakers
python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/working_data/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data
Metadata
-python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/working_data/development_data_xml -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data
Test Data
source /home/stephan/VirtualEnvs/bundesdata/bin/activate
cd /home/stephan/Repos/master_thesis/bundesdata
Speakers
python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/working_data/test/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data/test
Metadata
-python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/working_data/test_data_xml -f *.xml -o /home/stephan/Repos/master_thesis/data/working_data/test
Full data
source /home/stephan/VirtualEnvs/bundesdata/bin/activate
cd /home/stephan/Repos/master_thesis/bundesdata
Speakers
python markup/speakers.py -p /home/stephan/Repos/master_thesis/data/xml_new_metadata_structure -f *.xml -o /home/stephan/Repos/master_thesis/data
Metadata
-python markup/metastructure.py -p /home/stephan/Repos/master_thesis/data/protocols_raw_xml -f *.xml -o /home/stephan/Repos/master_thesis/data