4.8 KiB
4.8 KiB
bundesdata_markup_nlp_data
This is just a repository providing the link to the data used and created by the software from this repository: https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_software
Pelase read the description of that project to understand what kind of data this is.
The data can be downloaded here: https://uni-bielefeld.sciebo.de/s/9p55VIn9OLmNqa9
Size: around 70GB
Structure:
.
├── inputs
│ ├── backup_raw_xml # Zip files of all original protocols.
│ ├── current_official_protocols_xml # Example file of the new official markup.
│ ├── development_data_xml # Set of original xml protocols used for development.
│ ├── faulty_raw_xml # A original protocolls with errors. The Bundesregierung should have fixed those by now. The Software mentioned above used these faulty ones though because the new ones were not available back then.
│ │ ├── 15_Wahlperiode_2002-2005
│ │ ├── 16_Wahlperiode_2005-2009
│ │ └── 17_Wahlperiode_2009-2013
│ ├── protocols_raw_xml
│ │ ├── 01_Wahlperiode_1949-1953
│ │ ├── 02_Wahlperiode_1953-1957
│ │ ├── 03_Wahlperiode_1957-1961
│ │ ├── 04_Wahlperiode_1961-1965
│ │ ├── 05_Wahlperiode_1965-1969
│ │ ├── 06_Wahlperiode_1969-1972
│ │ ├── 07_Wahlperiode_1972-1976
│ │ ├── 08_Wahlperiode_1976-1980
│ │ ├── 09_Wahlperiode_1980-1983
│ │ ├── 10_Wahlperiode_1983-1987
│ │ ├── 11_Wahlperiode_1987-1990
│ │ ├── 12_Wahlperiode_1990-1994
│ │ ├── 13_Wahlperiode_1994-1998
│ │ ├── 14_Wahlperiode_1998-2002
│ │ └── 18_Wahlperiode_2013-2017
│ └── test_data_xml
├── MdB_data
├── outputs
│ ├── markup
│ │ ├── dev_data
│ │ │ ├── beautiful_xml
│ │ │ ├── clear_speech_markup
│ │ │ ├── complex_markup
│ │ │ ├── new_metadata
│ │ │ └── simple_xml
│ │ ├── full_periods
│ │ │ ├── 01_Wahlperiode_1949-1953
│ │ │ ├── 02_Wahlperiode_1953-1957
│ │ │ ├── 03_Wahlperiode_1957-1961
│ │ │ ├── 04_Wahlperiode_1961-1965
│ │ │ ├── 05_Wahlperiode_1965-1969
│ │ │ ├── 06_Wahlperiode_1969-1972
│ │ │ ├── 07_Wahlperiode_1972-1976
│ │ │ ├── 08_Wahlperiode_1976-1980
│ │ │ ├── 09_Wahlperiode_1980-1983
│ │ │ ├── 10_Wahlperiode_1983-1987
│ │ │ ├── 11_Wahlperiode_1987-1990
│ │ │ ├── 12_Wahlperiode_1990-1994
│ │ │ ├── 13_Wahlperiode_1994-1998
│ │ │ ├── 14_Wahlperiode_1998-2002
│ │ │ ├── 15_Wahlperiode_2002-2005_faulty
│ │ │ ├── 16_Wahlperiode_2005-2009_faulty
│ │ │ ├── 17_Wahlperiode_2009-2013_faulty
│ │ │ └── 18_Wahlperiode_2013-2017
│ │ └── test_data
│ │ ├── beautiful_xml
│ │ ├── clear_speech_markup
│ │ ├── complex_markup
│ │ ├── new_metadata
│ │ └── simple_xml
│ └── nlp
│ └── full_periods
│ ├── n-grams
│ │ ├── lm_ns_speaker
│ │ │ ├── 1_grams
│ │ │ ├── 2_grams
│ │ │ ├── 3_grams
│ │ │ ├── 4_grams
│ │ │ └── 5_grams
│ │ ├── lm_ns_year
│ │ │ ├── 1_grams
│ │ │ ├── 2_grams
│ │ │ ├── 3_grams
│ │ │ ├── 4_grams
│ │ │ └── 5_grams
│ │ ├── tk_ws_speaker_(1-3)
│ │ │ ├── 1_grams
│ │ │ ├── 2_grams
│ │ │ └── 3_grams
│ │ └── tk_ws_year_(1-4)
│ │ ├── 1_grams
│ │ ├── 2_grams
│ │ ├── 3_grams
│ │ └── 4_grams
│ └── protocols
│ ├── protocols_lemmatized_without_stopwords
│ └── protocols_tokenized_with_stopwords
└── protocol_DTD