fixed data for markup
This commit is contained in:
parent
4b670ac98c
commit
cd9016f2b1
1
.gitignore
vendored
1
.gitignore
vendored
@ -3,3 +3,4 @@
|
|||||||
data/*
|
data/*
|
||||||
.idea/*
|
.idea/*
|
||||||
|
|
||||||
|
**/__pycache__/*
|
||||||
|
@ -1,177 +0,0 @@
|
|||||||
<?xml version="1.0" encoding="UTF-8"?>
|
|
||||||
<!-- DTD für die Stammdaten der Abgeordneten des Deutschen Bundestages ab der 1. Wahlperiode -->
|
|
||||||
<!ELEMENT DOCUMENT (VERSION, MDB+)>
|
|
||||||
<!--DOCUMENT bestehend aus Dokumentenversion und Angaben zu Abgeordneten des Deutschen Bundestages
|
|
||||||
Elemente, die mit einem + gekennzeichnet sind, können einmal oder mehrmals vorkommen.
|
|
||||||
-->
|
|
||||||
<!ELEMENT VERSION (#PCDATA)>
|
|
||||||
<!--Dokumentenversion
|
|
||||||
-->
|
|
||||||
<!ELEMENT MDB (ID, NAMEN, BIOGRAFISCHE_ANGABEN, WAHLPERIODEN)>
|
|
||||||
<!--Angaben zu Abgeordneten des Deutschen Bundestages
|
|
||||||
-->
|
|
||||||
<!ELEMENT ID (#PCDATA)>
|
|
||||||
<!--Identifikationsnummer des Abgeordneten
|
|
||||||
Format: 8-stellig
|
|
||||||
-->
|
|
||||||
<!ELEMENT NAMEN (NAME+)>
|
|
||||||
<!--Namensbestandteile zu Namen des Abgeordneten einschl. Namenshistorie
|
|
||||||
Element kann einmal oder mehrmals vorkommen.
|
|
||||||
-->
|
|
||||||
<!ELEMENT BIOGRAFISCHE_ANGABEN (GEBURTSDATUM?, GEBURTSORT?, GEBURTSLAND?, STERBEDATUM?, GESCHLECHT?, BERUF?, PARTEI_KURZ?, VITA_KURZ?, VEROEFFENTLICHUNGSPFLICHTIGES?)>
|
|
||||||
<!--Biografische Angaben des Abgeordneten
|
|
||||||
Elemente, die mit einem ? gekennzeichnet sind, können keinmal oder genau einmal vorkommen.
|
|
||||||
-->
|
|
||||||
<!ELEMENT WAHLPERIODEN (WAHLPERIODE+)>
|
|
||||||
<!--Angaben zur Wahlperiode
|
|
||||||
Element kann einmal oder mehrmals vorkommen.
|
|
||||||
-->
|
|
||||||
<!ELEMENT NAME (NACHNAME, VORNAME, ORTSZUSATZ, ADEL, PRAEFIX, ANREDE_TITEL, AKAD_TITEL, HISTORIE_VON, HISTORIE_BIS)>
|
|
||||||
<!--Namensbestandteile je Name des Abgeordneten einschl. Namenshistorie
|
|
||||||
-->
|
|
||||||
<!ELEMENT GEBURTSDATUM (#PCDATA)>
|
|
||||||
<!--Geburtsdatum des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT GEBURTSORT (#PCDATA)>
|
|
||||||
<!--Geburtsort des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT GEBURTSLAND (#PCDATA)>
|
|
||||||
<!--Geburtsland des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT STERBEDATUM (#PCDATA)>
|
|
||||||
<!--Sterbedatum des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT GESCHLECHT (#PCDATA)>
|
|
||||||
<!--Geschlecht des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT BERUF (#PCDATA)>
|
|
||||||
<!--Beruf des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT PARTEI_KURZ (#PCDATA)>
|
|
||||||
<!--Parteizugehörigkeit des Abgeordneten - Kurzform
|
|
||||||
-->
|
|
||||||
<!ELEMENT VITA_KURZ (#PCDATA)>
|
|
||||||
<!--Kurzbiografie des Abgeordneten (nur aktuelle Wahlperiode)
|
|
||||||
-->
|
|
||||||
<!ELEMENT VEROEFFENTLICHUNGSPFLICHTIGES (#PCDATA)>
|
|
||||||
<!--Veröffentlichungspflichtige Angaben des Abgeordneten (nur aktuelle Wahlperiode)
|
|
||||||
Kategorien der Veröffentlichung
|
|
||||||
1. Berufliche Tätigkeit vor der Mitgliedschaft im Deutschen Bundestag
|
|
||||||
(§ 1 Abs. 1 Nr. 1 VR, Nr. 2 und 5 Ausführungsbestimmungen - AB)
|
|
||||||
2. Entgeltliche Tätigkeiten neben dem Mandat
|
|
||||||
(§ 1 Abs. 2 Nr. 1 VR, Nr. 3, 4 und 8 AB)
|
|
||||||
3. Funktionen in Unternehmen
|
|
||||||
(§ 1 Abs. 2 Nr. 2 VR, Nr. 3 AB)
|
|
||||||
4. Funktionen in Körperschaften und Anstalten des öffentlichen Rechts
|
|
||||||
(§ 1 Abs. 2 Nr. 3 VR, Nr. 3 AB)
|
|
||||||
5. Funktionen in Vereinen, Verbänden und Stiftungen
|
|
||||||
(§ 1 Abs. 2 Nr. 4 VR, Nr. 3 AB)
|
|
||||||
6. Vereinbarungen über künftige Tätigkeiten oder Vermögensvorteile
|
|
||||||
(§ 1 Abs. 2 Nr. 5 VR, Nr. 6 AB)
|
|
||||||
7. Beteiligungen an Kapital- oder Personengesellschaften
|
|
||||||
(§ 1 Abs. 2 Nr. 6 VR, Nr. 7 AB)
|
|
||||||
8. Spenden
|
|
||||||
(§ 4 VR, Nr. 10 AB)
|
|
||||||
-->
|
|
||||||
<!ELEMENT WAHLPERIODE (WP, MDBWP_VON, MDBWP_BIS, WKR_NUMMER, WKR_NAME, WKR_LAND, LISTE, MANDATSART, INSTITUTIONEN)>
|
|
||||||
<!--Angaben je Wahlperiode des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT NACHNAME (#PCDATA)>
|
|
||||||
<!--Nachname des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT VORNAME (#PCDATA)>
|
|
||||||
<!--VORNAME des Abgeordneten
|
|
||||||
-->
|
|
||||||
<!ELEMENT ORTSZUSATZ (#PCDATA)>
|
|
||||||
<!--Ortszusatz zu NACHNAME, zur Unterscheidung bei Namensgleichheit
|
|
||||||
z.B. (Berlin)
|
|
||||||
-->
|
|
||||||
<!ELEMENT ADEL (#PCDATA)>
|
|
||||||
<!--Adelsprädikat (z.B. Freiherr, Baron u.ä.)
|
|
||||||
-->
|
|
||||||
<!ELEMENT PRAEFIX (#PCDATA)>
|
|
||||||
<!--Namenspräfix (z.B. von, van u.ä.)
|
|
||||||
-->
|
|
||||||
<!ELEMENT ANREDE_TITEL (#PCDATA)>
|
|
||||||
<!--Anrede-Titel des Abgeordneten (z.B. Dr., Prof. u.ä.)
|
|
||||||
-->
|
|
||||||
<!ELEMENT AKAD_TITEL (#PCDATA)>
|
|
||||||
<!--Akademischer Titel des Abgeordneten (z.B. Dr.-Ing., Prof. Dr. h. c. u.ä.)
|
|
||||||
-->
|
|
||||||
<!ELEMENT HISTORIE_VON (#PCDATA)>
|
|
||||||
<!--Historie zu den Namensbestandteilen des Abgeordneten - gültig von
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
(ab Eintritt in den Bundestag oder ab Änderung der Namensbestandteile während des Mandates (z.B. durch Heirat))
|
|
||||||
-->
|
|
||||||
<!ELEMENT HISTORIE_BIS (#PCDATA)>
|
|
||||||
<!--Historie zu den Namensbestandteilen des Abgeordneten - gültig bis
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
(bei Änderung der Namensbestandteile während des Mandates)
|
|
||||||
-->
|
|
||||||
<!ELEMENT WP (#PCDATA)>
|
|
||||||
<!--Nummer der Wahlperiode
|
|
||||||
Format: 1 oder 2-stellig
|
|
||||||
-->
|
|
||||||
<!ELEMENT MDBWP_VON (#PCDATA)>
|
|
||||||
<!--Beginn der Wahlperiodenzugehörigkeit des Abgeordneten
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
-->
|
|
||||||
<!ELEMENT MDBWP_BIS (#PCDATA)>
|
|
||||||
<!--Ende der Wahlperiodenzugehörigkeit des Abgeordneten
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
-->
|
|
||||||
<!ELEMENT WKR_NUMMER (#PCDATA)>
|
|
||||||
<!--Nummer des Wahlkreises, in dem der MDB kandidiert hat oder gewählt wurde.
|
|
||||||
Format: 1 bis 3-stellig
|
|
||||||
-->
|
|
||||||
<!ELEMENT WKR_NAME (#PCDATA)>
|
|
||||||
<!--Wahlkreisname, in dem der MDB kandidiert hat oder gewählt wurde.
|
|
||||||
-->
|
|
||||||
<!ELEMENT WKR_LAND (#PCDATA)>
|
|
||||||
<!--Kurzbezeichnung des Bundeslandes,
|
|
||||||
in dem der Wahlkreis liegt, in dem der MDB kandidiert hat oder gewählt wurde.
|
|
||||||
-->
|
|
||||||
<!ELEMENT LISTE (#PCDATA)>
|
|
||||||
<!--Kurzbezeichnung der Liste, über die der MDB kandidiert hat oder gewählt wurde.
|
|
||||||
Normalform: Bundeslandkürzel
|
|
||||||
Ausnahmen: * Eingliederung Saarland, ** Berlin West Änderungsgesetz, *** von der Volkskammer gewählt
|
|
||||||
Format: 1 bis 3-stellig
|
|
||||||
-->
|
|
||||||
<!ELEMENT MANDATSART (#PCDATA)>
|
|
||||||
<!--Art des Mandates (Direktmandat, Landesliste oder Volkskammer)
|
|
||||||
-->
|
|
||||||
<!ELEMENT INSTITUTIONEN (INSTITUTION*)>
|
|
||||||
<!--Angaben zu Institutionen (hier: nur Fraktion, außer aktuelle Wahlperiode)
|
|
||||||
Element kann einmal oder mehrmals vorkommen.
|
|
||||||
-->
|
|
||||||
<!ELEMENT INSTITUTION (INSART_LANG, INS_LANG, MDBINS_VON, MDBINS_BIS, FKT_LANG, FKTINS_VON, FKTINS_BIS)>
|
|
||||||
<!--Angaben je Institution (hier: nur Fraktion, außer aktuelle Wahlperiode)
|
|
||||||
-->
|
|
||||||
<!ELEMENT INSART_LANG (#PCDATA)>
|
|
||||||
<!--Langbezeichnung der Institutionsart
|
|
||||||
(z.B. Fraktion, Ausschuss usw., hier: nur Fraktion, außer aktuelle Wahlperiode)
|
|
||||||
-->
|
|
||||||
<!ELEMENT INS_LANG (#PCDATA)>
|
|
||||||
<!--Langbezeichnung der Institution
|
|
||||||
(z.B. Fraktionsname, Ausschussname usw., hier: nur Fraktion, außer aktuelle Wahlperiode)
|
|
||||||
-->
|
|
||||||
<!ELEMENT MDBINS_VON (#PCDATA)>
|
|
||||||
<!--Beginn der Institutionszugehörigkeit des Abgeordneten
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
-->
|
|
||||||
<!ELEMENT MDBINS_BIS (#PCDATA)>
|
|
||||||
<!--Ende der Institutionszugehörigkeit des Abgeordneten
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
-->
|
|
||||||
<!ELEMENT FKT_LANG (#PCDATA)>
|
|
||||||
<!--Langbezeichnung der ausgeübten Funktion des Abgeordneten in einer Institution
|
|
||||||
(z.B. Ordentliches Mitglied, Vorsitzender, Stellvertreter usw.)
|
|
||||||
-->
|
|
||||||
<!ELEMENT FKTINS_VON (#PCDATA)>
|
|
||||||
<!--Beginn der Funktionsausübung des Abgeordneten in einer Institution
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
-->
|
|
||||||
<!ELEMENT FKTINS_BIS (#PCDATA)>
|
|
||||||
<!--Ende der Funktionsausübung des Abgeordneten in einer Institution
|
|
||||||
Format: TT.MM.JJJJ
|
|
||||||
-->
|
|
394217
MdB_data/MdB_Stammdaten.xml
394217
MdB_data/MdB_Stammdaten.xml
File diff suppressed because it is too large
Load Diff
@ -1,7 +0,0 @@
|
|||||||
# Metadaten:
|
|
||||||
Stammdaten sind zum letzten mal von Seiten der Bundesregierung am 04.10.2018 hochgeladen worden.
|
|
||||||
Quelle: https://www.bundestag.de/blob/472878/e207ab4b38c93187c6580fc186a95f38/mdb-stammdaten-data.zip
|
|
||||||
Alle Abgeordneten seit 1949, seit der ersten Sitzung des Bundestags.
|
|
||||||
|
|
||||||
# Veränderungen:
|
|
||||||
Habe GB/BHE zu GB/ BHE geändert.
|
|
@ -31,17 +31,8 @@ date_string = [\d\t ]*Deutscher Bundestag (?:–|—|-|--) \d{1,2} ?\. Wahlperio
|
|||||||
multiline_comment = \B\([^\(\)]* ; [^\(\)]*\)\B ; kommentar
|
multiline_comment = \B\([^\(\)]* ; [^\(\)]*\)\B ; kommentar
|
||||||
|
|
||||||
[File paths]
|
[File paths]
|
||||||
nlp_output = /home/stephan/Desktop/tmp_test/nlp_output
|
|
||||||
nlp_input = /home/stephan/Desktop/tmp_test/nlp_output/nlp_beuatiful_xml/
|
|
||||||
nlp_lemmatized_tokenized = /home/stephan/Desktop/tmp_test/nlp_output/lemmatized
|
|
||||||
tmp_path = /home/stephan/Desktop/tmp_test/nlp_output/lemmatized/tmp
|
|
||||||
nlp_beuatiful_xml = /home/stephan/Desktop/tmp_test/nlp_output/nlp_beuatiful_xml
|
|
||||||
input_folder_xmls = /home/stephan/Desktop/18_Wahlperiode_2013-2017/
|
|
||||||
output_folder = /home/stephan/Desktop/output
|
output_folder = /home/stephan/Desktop/output
|
||||||
|
input_folder_xmls = /home/stephan/Desktop/18_Wahlperiode_2013-2017/
|
||||||
new_metadata = /home/stephan/Desktop/output/new_metadata
|
new_metadata = /home/stephan/Desktop/output/new_metadata
|
||||||
new_simple_markup = /home/stephan/Desktop/output/simple_xml
|
new_simple_markup = /home/stephan/Desktop/output/simple_xml
|
||||||
complex_markup = /home/stephan/Desktop/tmp_test/output/complex_markup
|
|
||||||
clear_speech_markup = /home/stephan/Desktop/tmp_test/output/clear_speech_markup
|
|
||||||
beautiful_xml = /home/stephan/Desktop/tmp_test/output/beautiful_xml
|
|
||||||
fixed_markup = /home/stephan/Repos/master_thesis/data/working_data/id_fixed/fixed_markup
|
|
||||||
|
|
||||||
|
File diff suppressed because it is too large
Load Diff
Loading…
Reference in New Issue
Block a user