bundesdata_markup_nlp_data/README.md
2019-02-26 19:41:39 +01:00

103 lines
4.8 KiB
Markdown

# bundesdata_markup_nlp_data
This is just a repository providing the link to the data used and created by the software from this repository: https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_software
Pelase read the description of that project to understand what kind of data this is.
The data can be downloaded here: https://uni-bielefeld.sciebo.de/s/9p55VIn9OLmNqa9
Size: around 70GB
Structure:
```
.
├── inputs
│   ├── backup_raw_xml # Zip files of all original protocols.
│   ├── current_official_protocols_xml # Example file of the new official markup.
│   ├── development_data_xml # Set of original xml protocols used for development.
│   ├── faulty_raw_xml # A original protocolls with errors. The Bundesregierung should have fixed those by now. The Software mentioned above used these faulty ones though because the new ones were not available back then.
│   │   ├── 15_Wahlperiode_2002-2005
│   │   ├── 16_Wahlperiode_2005-2009
│   │   └── 17_Wahlperiode_2009-2013
│   ├── protocols_raw_xml
│   │   ├── 01_Wahlperiode_1949-1953
│   │   ├── 02_Wahlperiode_1953-1957
│   │   ├── 03_Wahlperiode_1957-1961
│   │   ├── 04_Wahlperiode_1961-1965
│   │   ├── 05_Wahlperiode_1965-1969
│   │   ├── 06_Wahlperiode_1969-1972
│   │   ├── 07_Wahlperiode_1972-1976
│   │   ├── 08_Wahlperiode_1976-1980
│   │   ├── 09_Wahlperiode_1980-1983
│   │   ├── 10_Wahlperiode_1983-1987
│   │   ├── 11_Wahlperiode_1987-1990
│   │   ├── 12_Wahlperiode_1990-1994
│   │   ├── 13_Wahlperiode_1994-1998
│   │   ├── 14_Wahlperiode_1998-2002
│   │   └── 18_Wahlperiode_2013-2017
│   └── test_data_xml
├── MdB_data
├── outputs
│   ├── markup
│   │   ├── dev_data
│   │   │   ├── beautiful_xml
│   │   │   ├── clear_speech_markup
│   │   │   ├── complex_markup
│   │   │   ├── new_metadata
│   │   │   └── simple_xml
│   │   ├── full_periods
│   │   │   ├── 01_Wahlperiode_1949-1953
│   │   │   ├── 02_Wahlperiode_1953-1957
│   │   │   ├── 03_Wahlperiode_1957-1961
│   │   │   ├── 04_Wahlperiode_1961-1965
│   │   │   ├── 05_Wahlperiode_1965-1969
│   │   │   ├── 06_Wahlperiode_1969-1972
│   │   │   ├── 07_Wahlperiode_1972-1976
│   │   │   ├── 08_Wahlperiode_1976-1980
│   │   │   ├── 09_Wahlperiode_1980-1983
│   │   │   ├── 10_Wahlperiode_1983-1987
│   │   │   ├── 11_Wahlperiode_1987-1990
│   │   │   ├── 12_Wahlperiode_1990-1994
│   │   │   ├── 13_Wahlperiode_1994-1998
│   │   │   ├── 14_Wahlperiode_1998-2002
│   │   │   ├── 15_Wahlperiode_2002-2005_faulty
│   │   │   ├── 16_Wahlperiode_2005-2009_faulty
│   │   │   ├── 17_Wahlperiode_2009-2013_faulty
│   │   │   └── 18_Wahlperiode_2013-2017
│   │   └── test_data
│   │   ├── beautiful_xml
│   │   ├── clear_speech_markup
│   │   ├── complex_markup
│   │   ├── new_metadata
│   │   └── simple_xml
│   └── nlp
│   └── full_periods
│   ├── n-grams
│   │   ├── lm_ns_speaker
│   │   │   ├── 1_grams
│   │   │   ├── 2_grams
│   │   │   ├── 3_grams
│   │   │   ├── 4_grams
│   │   │   └── 5_grams
│   │   ├── lm_ns_year
│   │   │   ├── 1_grams
│   │   │   ├── 2_grams
│   │   │   ├── 3_grams
│   │   │   ├── 4_grams
│   │   │   └── 5_grams
│   │   ├── tk_ws_speaker_(1-3)
│   │   │   ├── 1_grams
│   │   │   ├── 2_grams
│   │   │   └── 3_grams
│   │   └── tk_ws_year_(1-4)
│   │   ├── 1_grams
│   │   ├── 2_grams
│   │   ├── 3_grams
│   │   └── 4_grams
│   └── protocols
│   ├── protocols_lemmatized_without_stopwords
│   └── protocols_tokenized_with_stopwords
└── protocol_DTD
```