fixed data for markup
This commit is contained in:
		
							
								
								
									
										1
									
								
								.gitignore
									
									
									
									
										vendored
									
									
								
							
							
						
						
									
										1
									
								
								.gitignore
									
									
									
									
										vendored
									
									
								
							@@ -3,3 +3,4 @@
 | 
			
		||||
data/*
 | 
			
		||||
.idea/*
 | 
			
		||||
 | 
			
		||||
**/__pycache__/*
 | 
			
		||||
 
 | 
			
		||||
@@ -1,177 +0,0 @@
 | 
			
		||||
<?xml version="1.0" encoding="UTF-8"?>
 | 
			
		||||
<!-- DTD für die Stammdaten der Abgeordneten des Deutschen Bundestages ab der 1. Wahlperiode -->
 | 
			
		||||
<!ELEMENT DOCUMENT (VERSION, MDB+)>
 | 
			
		||||
	<!--DOCUMENT bestehend aus Dokumentenversion und Angaben zu Abgeordneten des Deutschen Bundestages
 | 
			
		||||
		Elemente, die mit einem + gekennzeichnet sind, können einmal oder mehrmals vorkommen.
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT VERSION (#PCDATA)>
 | 
			
		||||
	<!--Dokumentenversion
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT MDB (ID, NAMEN, BIOGRAFISCHE_ANGABEN, WAHLPERIODEN)>
 | 
			
		||||
	<!--Angaben zu Abgeordneten des Deutschen Bundestages
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT ID (#PCDATA)>
 | 
			
		||||
	<!--Identifikationsnummer des Abgeordneten
 | 
			
		||||
		Format: 8-stellig
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT NAMEN (NAME+)>
 | 
			
		||||
	<!--Namensbestandteile zu Namen des Abgeordneten einschl. Namenshistorie
 | 
			
		||||
		Element kann einmal oder mehrmals vorkommen.
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT BIOGRAFISCHE_ANGABEN (GEBURTSDATUM?, GEBURTSORT?, GEBURTSLAND?, STERBEDATUM?, GESCHLECHT?, BERUF?, PARTEI_KURZ?, VITA_KURZ?, VEROEFFENTLICHUNGSPFLICHTIGES?)>
 | 
			
		||||
	<!--Biografische Angaben des Abgeordneten
 | 
			
		||||
		Elemente, die mit einem ? gekennzeichnet sind, können keinmal oder genau einmal vorkommen.
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT WAHLPERIODEN (WAHLPERIODE+)>
 | 
			
		||||
	<!--Angaben zur Wahlperiode 
 | 
			
		||||
		Element kann einmal oder mehrmals vorkommen.
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT NAME (NACHNAME, VORNAME, ORTSZUSATZ, ADEL, PRAEFIX, ANREDE_TITEL, AKAD_TITEL, HISTORIE_VON, HISTORIE_BIS)>
 | 
			
		||||
	<!--Namensbestandteile je Name des Abgeordneten einschl. Namenshistorie
 | 
			
		||||
	-->	
 | 
			
		||||
<!ELEMENT GEBURTSDATUM (#PCDATA)>
 | 
			
		||||
	<!--Geburtsdatum des Abgeordneten
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT GEBURTSORT (#PCDATA)>
 | 
			
		||||
	<!--Geburtsort des Abgeordneten
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT GEBURTSLAND (#PCDATA)>
 | 
			
		||||
	<!--Geburtsland des Abgeordneten
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT STERBEDATUM (#PCDATA)>
 | 
			
		||||
	<!--Sterbedatum des Abgeordneten
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT GESCHLECHT (#PCDATA)>
 | 
			
		||||
	<!--Geschlecht des Abgeordneten
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT BERUF (#PCDATA)>
 | 
			
		||||
	<!--Beruf des Abgeordneten
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT PARTEI_KURZ (#PCDATA)>
 | 
			
		||||
	<!--Parteizugehörigkeit des Abgeordneten - Kurzform
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT VITA_KURZ (#PCDATA)>
 | 
			
		||||
	<!--Kurzbiografie des Abgeordneten (nur aktuelle Wahlperiode)
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT VEROEFFENTLICHUNGSPFLICHTIGES (#PCDATA)>
 | 
			
		||||
	<!--Veröffentlichungspflichtige Angaben des Abgeordneten (nur aktuelle Wahlperiode)
 | 
			
		||||
		Kategorien der Veröffentlichung
 | 
			
		||||
		1. Berufliche Tätigkeit vor der Mitgliedschaft im Deutschen Bundestag
 | 
			
		||||
		  (§ 1 Abs. 1 Nr. 1 VR, Nr. 2 und 5 Ausführungsbestimmungen - AB)
 | 
			
		||||
		2. Entgeltliche Tätigkeiten neben dem Mandat
 | 
			
		||||
		  (§ 1 Abs. 2 Nr. 1 VR, Nr. 3, 4 und 8 AB)
 | 
			
		||||
		3. Funktionen in Unternehmen
 | 
			
		||||
		  (§ 1 Abs. 2 Nr. 2 VR, Nr. 3 AB)
 | 
			
		||||
		4. Funktionen in Körperschaften und Anstalten des öffentlichen Rechts
 | 
			
		||||
		  (§ 1 Abs. 2 Nr. 3 VR, Nr. 3 AB)
 | 
			
		||||
		5. Funktionen in Vereinen, Verbänden und Stiftungen
 | 
			
		||||
		  (§ 1 Abs. 2 Nr. 4 VR, Nr. 3 AB)
 | 
			
		||||
		6. Vereinbarungen über künftige Tätigkeiten oder Vermögensvorteile
 | 
			
		||||
		  (§ 1 Abs. 2 Nr. 5 VR, Nr. 6 AB)
 | 
			
		||||
		7. Beteiligungen an Kapital- oder Personengesellschaften
 | 
			
		||||
		  (§ 1 Abs. 2 Nr. 6 VR, Nr. 7 AB)
 | 
			
		||||
		8. Spenden
 | 
			
		||||
		  (§ 4 VR, Nr. 10 AB)
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT WAHLPERIODE (WP, MDBWP_VON, MDBWP_BIS, WKR_NUMMER, WKR_NAME, WKR_LAND, LISTE, MANDATSART, INSTITUTIONEN)>
 | 
			
		||||
	<!--Angaben je Wahlperiode des Abgeordneten
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT NACHNAME (#PCDATA)>
 | 
			
		||||
	<!--Nachname des Abgeordneten
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT VORNAME (#PCDATA)>
 | 
			
		||||
	<!--VORNAME des Abgeordneten
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT ORTSZUSATZ (#PCDATA)>
 | 
			
		||||
	<!--Ortszusatz zu NACHNAME, zur Unterscheidung bei Namensgleichheit
 | 
			
		||||
		z.B. (Berlin)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT ADEL (#PCDATA)>
 | 
			
		||||
	<!--Adelsprädikat (z.B. Freiherr, Baron u.ä.)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT PRAEFIX (#PCDATA)>
 | 
			
		||||
	<!--Namenspräfix (z.B. von, van u.ä.)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT ANREDE_TITEL (#PCDATA)>
 | 
			
		||||
	<!--Anrede-Titel des Abgeordneten (z.B. Dr., Prof. u.ä.)
 | 
			
		||||
		-->
 | 
			
		||||
<!ELEMENT AKAD_TITEL (#PCDATA)>
 | 
			
		||||
	<!--Akademischer Titel des Abgeordneten (z.B. Dr.-Ing., Prof. Dr. h. c. u.ä.)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT HISTORIE_VON (#PCDATA)>
 | 
			
		||||
	<!--Historie zu den Namensbestandteilen des Abgeordneten - gültig von
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
		(ab Eintritt in den Bundestag oder ab Änderung der Namensbestandteile während des Mandates (z.B. durch Heirat))
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT HISTORIE_BIS (#PCDATA)>
 | 
			
		||||
	<!--Historie zu den Namensbestandteilen des Abgeordneten - gültig bis
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
		(bei Änderung der Namensbestandteile während des Mandates)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT WP (#PCDATA)>
 | 
			
		||||
	<!--Nummer der Wahlperiode
 | 
			
		||||
		Format: 1 oder 2-stellig	
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT MDBWP_VON (#PCDATA)>
 | 
			
		||||
	<!--Beginn der Wahlperiodenzugehörigkeit des Abgeordneten
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT MDBWP_BIS (#PCDATA)>
 | 
			
		||||
	<!--Ende der Wahlperiodenzugehörigkeit des Abgeordneten
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT WKR_NUMMER (#PCDATA)>
 | 
			
		||||
	<!--Nummer des Wahlkreises, in dem der MDB kandidiert hat oder gewählt wurde.
 | 
			
		||||
		Format: 1 bis 3-stellig
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT WKR_NAME (#PCDATA)>
 | 
			
		||||
	<!--Wahlkreisname, in dem der MDB kandidiert hat oder gewählt wurde.
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT WKR_LAND (#PCDATA)>
 | 
			
		||||
	<!--Kurzbezeichnung des Bundeslandes, 
 | 
			
		||||
	    in dem der Wahlkreis liegt, in dem der MDB kandidiert hat oder gewählt wurde.
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT LISTE (#PCDATA)>
 | 
			
		||||
	<!--Kurzbezeichnung der Liste, über die der MDB kandidiert hat oder gewählt wurde.
 | 
			
		||||
		Normalform: Bundeslandkürzel
 | 
			
		||||
		Ausnahmen: * Eingliederung Saarland, ** Berlin West Änderungsgesetz, *** von der Volkskammer gewählt
 | 
			
		||||
		Format: 1 bis 3-stellig
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT MANDATSART (#PCDATA)>
 | 
			
		||||
	<!--Art des Mandates (Direktmandat, Landesliste oder Volkskammer)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT INSTITUTIONEN (INSTITUTION*)>
 | 
			
		||||
	<!--Angaben zu Institutionen (hier: nur Fraktion, außer aktuelle Wahlperiode)
 | 
			
		||||
		Element kann einmal oder mehrmals vorkommen.
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT INSTITUTION (INSART_LANG, INS_LANG, MDBINS_VON, MDBINS_BIS, FKT_LANG, FKTINS_VON, FKTINS_BIS)>
 | 
			
		||||
	<!--Angaben je Institution (hier: nur Fraktion, außer aktuelle Wahlperiode)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT INSART_LANG (#PCDATA)>
 | 
			
		||||
	<!--Langbezeichnung der Institutionsart 
 | 
			
		||||
		(z.B. Fraktion, Ausschuss usw., hier: nur Fraktion, außer aktuelle Wahlperiode)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT INS_LANG (#PCDATA)>
 | 
			
		||||
	<!--Langbezeichnung der Institution 
 | 
			
		||||
		(z.B. Fraktionsname, Ausschussname usw., hier: nur Fraktion, außer aktuelle Wahlperiode)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT MDBINS_VON (#PCDATA)>
 | 
			
		||||
	<!--Beginn der Institutionszugehörigkeit des Abgeordneten
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT MDBINS_BIS (#PCDATA)>
 | 
			
		||||
	<!--Ende der Institutionszugehörigkeit des Abgeordneten
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT FKT_LANG (#PCDATA)>
 | 
			
		||||
	<!--Langbezeichnung der ausgeübten Funktion des Abgeordneten in einer Institution
 | 
			
		||||
		(z.B. Ordentliches Mitglied, Vorsitzender, Stellvertreter usw.)
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT FKTINS_VON (#PCDATA)>
 | 
			
		||||
	<!--Beginn der Funktionsausübung des Abgeordneten in einer Institution
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
	-->
 | 
			
		||||
<!ELEMENT FKTINS_BIS (#PCDATA)>
 | 
			
		||||
	<!--Ende der Funktionsausübung des Abgeordneten in einer Institution
 | 
			
		||||
		Format: TT.MM.JJJJ
 | 
			
		||||
	-->
 | 
			
		||||
							
								
								
									
										394217
									
								
								MdB_data/MdB_Stammdaten.xml
									
									
									
									
									
								
							
							
						
						
									
										394217
									
								
								MdB_data/MdB_Stammdaten.xml
									
									
									
									
									
								
							
										
											
												File diff suppressed because it is too large
												Load Diff
											
										
									
								
							@@ -1,7 +0,0 @@
 | 
			
		||||
# Metadaten:
 | 
			
		||||
Stammdaten sind zum letzten mal von Seiten der Bundesregierung am 04.10.2018 hochgeladen worden.
 | 
			
		||||
Quelle: https://www.bundestag.de/blob/472878/e207ab4b38c93187c6580fc186a95f38/mdb-stammdaten-data.zip
 | 
			
		||||
Alle Abgeordneten seit 1949, seit der ersten Sitzung des Bundestags.
 | 
			
		||||
 | 
			
		||||
# Veränderungen:
 | 
			
		||||
Habe GB/BHE zu GB/ BHE geändert.
 | 
			
		||||
@@ -31,17 +31,8 @@ date_string = [\d\t ]*Deutscher Bundestag (?:–|—|-|--) \d{1,2} ?\. Wahlperio
 | 
			
		||||
multiline_comment = \B\([^\(\)]* ; [^\(\)]*\)\B ; kommentar
 | 
			
		||||
 | 
			
		||||
[File paths]
 | 
			
		||||
nlp_output = /home/stephan/Desktop/tmp_test/nlp_output
 | 
			
		||||
nlp_input = /home/stephan/Desktop/tmp_test/nlp_output/nlp_beuatiful_xml/
 | 
			
		||||
nlp_lemmatized_tokenized = /home/stephan/Desktop/tmp_test/nlp_output/lemmatized
 | 
			
		||||
tmp_path = /home/stephan/Desktop/tmp_test/nlp_output/lemmatized/tmp
 | 
			
		||||
nlp_beuatiful_xml = /home/stephan/Desktop/tmp_test/nlp_output/nlp_beuatiful_xml
 | 
			
		||||
input_folder_xmls = /home/stephan/Desktop/18_Wahlperiode_2013-2017/
 | 
			
		||||
output_folder = /home/stephan/Desktop/output
 | 
			
		||||
input_folder_xmls = /home/stephan/Desktop/18_Wahlperiode_2013-2017/
 | 
			
		||||
new_metadata = /home/stephan/Desktop/output/new_metadata
 | 
			
		||||
new_simple_markup = /home/stephan/Desktop/output/simple_xml
 | 
			
		||||
complex_markup = /home/stephan/Desktop/tmp_test/output/complex_markup
 | 
			
		||||
clear_speech_markup = /home/stephan/Desktop/tmp_test/output/clear_speech_markup
 | 
			
		||||
beautiful_xml = /home/stephan/Desktop/tmp_test/output/beautiful_xml
 | 
			
		||||
fixed_markup = /home/stephan/Repos/master_thesis/data/working_data/id_fixed/fixed_markup
 | 
			
		||||
 | 
			
		||||
 
 | 
			
		||||
										
											
												File diff suppressed because it is too large
												Load Diff
											
										
									
								
							
		Reference in New Issue
	
	Block a user