2019-02-18 10:07:07 +00:00
# bundesdata_markup_nlp_data
2019-02-26 18:32:41 +00:00
This is just a repository providing the link to the data used and created by the software from this repository: https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_software
2019-02-26 18:39:32 +00:00
Pelase read the description of that project to understand what kind of data this is.
2019-02-26 18:32:41 +00:00
The data can be downloaded here: https://uni-bielefeld.sciebo.de/s/9p55VIn9OLmNqa9
2019-02-26 18:33:03 +00:00
2019-02-26 18:32:41 +00:00
Size: around 70GB
2019-02-18 10:09:11 +00:00
2019-02-26 18:35:10 +00:00
Structure:
```
.
├── inputs
2019-02-26 18:39:32 +00:00
│ ├── backup_raw_xml # Zip files of all original protocols
2019-02-26 18:35:10 +00:00
│ ├── current_official_protocols_xml
│ ├── development_data_xml
│ ├── faulty_raw_xml
│ │ ├── 15_Wahlperiode_2002-2005
│ │ ├── 16_Wahlperiode_2005-2009
│ │ └── 17_Wahlperiode_2009-2013
│ ├── protocols_raw_xml
│ │ ├── 01_Wahlperiode_1949-1953
│ │ ├── 02_Wahlperiode_1953-1957
│ │ ├── 03_Wahlperiode_1957-1961
│ │ ├── 04_Wahlperiode_1961-1965
│ │ ├── 05_Wahlperiode_1965-1969
│ │ ├── 06_Wahlperiode_1969-1972
│ │ ├── 07_Wahlperiode_1972-1976
│ │ ├── 08_Wahlperiode_1976-1980
│ │ ├── 09_Wahlperiode_1980-1983
│ │ ├── 10_Wahlperiode_1983-1987
│ │ ├── 11_Wahlperiode_1987-1990
│ │ ├── 12_Wahlperiode_1990-1994
│ │ ├── 13_Wahlperiode_1994-1998
│ │ ├── 14_Wahlperiode_1998-2002
2019-02-26 18:36:53 +00:00
│ │ └── 18_Wahlperiode_2013-2017
2019-02-26 18:35:10 +00:00
│ └── test_data_xml
├── MdB_data
├── outputs
│ ├── markup
│ │ ├── dev_data
│ │ │ ├── beautiful_xml
│ │ │ ├── clear_speech_markup
│ │ │ ├── complex_markup
│ │ │ ├── new_metadata
│ │ │ └── simple_xml
│ │ ├── full_periods
│ │ │ ├── 01_Wahlperiode_1949-1953
│ │ │ ├── 02_Wahlperiode_1953-1957
│ │ │ ├── 03_Wahlperiode_1957-1961
│ │ │ ├── 04_Wahlperiode_1961-1965
│ │ │ ├── 05_Wahlperiode_1965-1969
│ │ │ ├── 06_Wahlperiode_1969-1972
│ │ │ ├── 07_Wahlperiode_1972-1976
│ │ │ ├── 08_Wahlperiode_1976-1980
│ │ │ ├── 09_Wahlperiode_1980-1983
│ │ │ ├── 10_Wahlperiode_1983-1987
│ │ │ ├── 11_Wahlperiode_1987-1990
│ │ │ ├── 12_Wahlperiode_1990-1994
│ │ │ ├── 13_Wahlperiode_1994-1998
│ │ │ ├── 14_Wahlperiode_1998-2002
│ │ │ ├── 15_Wahlperiode_2002-2005_faulty
│ │ │ ├── 16_Wahlperiode_2005-2009_faulty
│ │ │ ├── 17_Wahlperiode_2009-2013_faulty
│ │ │ └── 18_Wahlperiode_2013-2017
│ │ └── test_data
│ │ ├── beautiful_xml
│ │ ├── clear_speech_markup
│ │ ├── complex_markup
│ │ ├── new_metadata
2019-02-26 18:36:53 +00:00
│ │ └── simple_xml
2019-02-26 18:35:10 +00:00
│ └── nlp
│ └── full_periods
│ ├── n-grams
│ │ ├── lm_ns_speaker
│ │ │ ├── 1_grams
│ │ │ ├── 2_grams
│ │ │ ├── 3_grams
│ │ │ ├── 4_grams
│ │ │ └── 5_grams
│ │ ├── lm_ns_year
│ │ │ ├── 1_grams
│ │ │ ├── 2_grams
│ │ │ ├── 3_grams
│ │ │ ├── 4_grams
│ │ │ └── 5_grams
│ │ ├── tk_ws_speaker_(1-3)
│ │ │ ├── 1_grams
│ │ │ ├── 2_grams
│ │ │ └── 3_grams
│ │ └── tk_ws_year_(1-4)
│ │ ├── 1_grams
│ │ ├── 2_grams
│ │ ├── 3_grams
│ │ └── 4_grams
│ └── protocols
│ ├── protocols_lemmatized_without_stopwords
2019-02-26 18:36:53 +00:00
│ └── protocols_tokenized_with_stopwords
2019-02-26 18:35:10 +00:00
└── protocol_DTD
```