Go to file
2019-02-26 19:39:32 +01:00
README.md Update README.md 2019-02-26 19:39:32 +01:00

bundesdata_markup_nlp_data

This is just a repository providing the link to the data used and created by the software from this repository: https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_software

Pelase read the description of that project to understand what kind of data this is.

The data can be downloaded here: https://uni-bielefeld.sciebo.de/s/9p55VIn9OLmNqa9

Size: around 70GB

Structure:

.
├── inputs
│   ├── backup_raw_xml  # Zip files of all original protocols
│   ├── current_official_protocols_xml
│   ├── development_data_xml
│   ├── faulty_raw_xml
│   │   ├── 15_Wahlperiode_2002-2005
│   │   ├── 16_Wahlperiode_2005-2009
│   │   └── 17_Wahlperiode_2009-2013
│   ├── protocols_raw_xml
│   │   ├── 01_Wahlperiode_1949-1953
│   │   ├── 02_Wahlperiode_1953-1957
│   │   ├── 03_Wahlperiode_1957-1961
│   │   ├── 04_Wahlperiode_1961-1965
│   │   ├── 05_Wahlperiode_1965-1969
│   │   ├── 06_Wahlperiode_1969-1972
│   │   ├── 07_Wahlperiode_1972-1976
│   │   ├── 08_Wahlperiode_1976-1980
│   │   ├── 09_Wahlperiode_1980-1983
│   │   ├── 10_Wahlperiode_1983-1987
│   │   ├── 11_Wahlperiode_1987-1990
│   │   ├── 12_Wahlperiode_1990-1994
│   │   ├── 13_Wahlperiode_1994-1998
│   │   ├── 14_Wahlperiode_1998-2002
│   │   └── 18_Wahlperiode_2013-2017
│   └── test_data_xml
├── MdB_data
├── outputs
│   ├── markup
│   │   ├── dev_data
│   │   │   ├── beautiful_xml
│   │   │   ├── clear_speech_markup
│   │   │   ├── complex_markup
│   │   │   ├── new_metadata
│   │   │   └── simple_xml
│   │   ├── full_periods
│   │   │   ├── 01_Wahlperiode_1949-1953
│   │   │   ├── 02_Wahlperiode_1953-1957
│   │   │   ├── 03_Wahlperiode_1957-1961
│   │   │   ├── 04_Wahlperiode_1961-1965
│   │   │   ├── 05_Wahlperiode_1965-1969
│   │   │   ├── 06_Wahlperiode_1969-1972
│   │   │   ├── 07_Wahlperiode_1972-1976
│   │   │   ├── 08_Wahlperiode_1976-1980
│   │   │   ├── 09_Wahlperiode_1980-1983
│   │   │   ├── 10_Wahlperiode_1983-1987
│   │   │   ├── 11_Wahlperiode_1987-1990
│   │   │   ├── 12_Wahlperiode_1990-1994
│   │   │   ├── 13_Wahlperiode_1994-1998
│   │   │   ├── 14_Wahlperiode_1998-2002
│   │   │   ├── 15_Wahlperiode_2002-2005_faulty
│   │   │   ├── 16_Wahlperiode_2005-2009_faulty
│   │   │   ├── 17_Wahlperiode_2009-2013_faulty
│   │   │   └── 18_Wahlperiode_2013-2017
│   │   └── test_data
│   │       ├── beautiful_xml
│   │       ├── clear_speech_markup
│   │       ├── complex_markup
│   │       ├── new_metadata
│   │       └── simple_xml
│   └── nlp
│       └── full_periods
│           ├── n-grams
│           │   ├── lm_ns_speaker
│           │   │   ├── 1_grams
│           │   │   ├── 2_grams
│           │   │   ├── 3_grams
│           │   │   ├── 4_grams
│           │   │   └── 5_grams
│           │   ├── lm_ns_year
│           │   │   ├── 1_grams
│           │   │   ├── 2_grams
│           │   │   ├── 3_grams
│           │   │   ├── 4_grams
│           │   │   └── 5_grams
│           │   ├── tk_ws_speaker_(1-3)
│           │   │   ├── 1_grams
│           │   │   ├── 2_grams
│           │   │   └── 3_grams
│           │   └── tk_ws_year_(1-4)
│           │       ├── 1_grams
│           │       ├── 2_grams
│           │       ├── 3_grams
│           │       └── 4_grams
│           └── protocols
│               ├── protocols_lemmatized_without_stopwords
│               └── protocols_tokenized_with_stopwords
└── protocol_DTD