Added data folder.

This commit is contained in:
Stephan Porada 2019-02-28 14:42:48 +01:00
parent 8d5f752042
commit 9ef4c51c9d
6 changed files with 394745 additions and 1 deletions

1
.gitignore vendored
View File

@ -1,6 +1,5 @@
*.pyc *.pyc
data/*
.idea/* .idea/*
**/__pycache__/* **/__pycache__/*

177
data/MdB_data/MdB_Stammdaten.dtd Executable file
View File

@ -0,0 +1,177 @@
<?xml version="1.0" encoding="UTF-8"?>
<!-- DTD für die Stammdaten der Abgeordneten des Deutschen Bundestages ab der 1. Wahlperiode -->
<!ELEMENT DOCUMENT (VERSION, MDB+)>
<!--DOCUMENT bestehend aus Dokumentenversion und Angaben zu Abgeordneten des Deutschen Bundestages
Elemente, die mit einem + gekennzeichnet sind, können einmal oder mehrmals vorkommen.
-->
<!ELEMENT VERSION (#PCDATA)>
<!--Dokumentenversion
-->
<!ELEMENT MDB (ID, NAMEN, BIOGRAFISCHE_ANGABEN, WAHLPERIODEN)>
<!--Angaben zu Abgeordneten des Deutschen Bundestages
-->
<!ELEMENT ID (#PCDATA)>
<!--Identifikationsnummer des Abgeordneten
Format: 8-stellig
-->
<!ELEMENT NAMEN (NAME+)>
<!--Namensbestandteile zu Namen des Abgeordneten einschl. Namenshistorie
Element kann einmal oder mehrmals vorkommen.
-->
<!ELEMENT BIOGRAFISCHE_ANGABEN (GEBURTSDATUM?, GEBURTSORT?, GEBURTSLAND?, STERBEDATUM?, GESCHLECHT?, BERUF?, PARTEI_KURZ?, VITA_KURZ?, VEROEFFENTLICHUNGSPFLICHTIGES?)>
<!--Biografische Angaben des Abgeordneten
Elemente, die mit einem ? gekennzeichnet sind, können keinmal oder genau einmal vorkommen.
-->
<!ELEMENT WAHLPERIODEN (WAHLPERIODE+)>
<!--Angaben zur Wahlperiode
Element kann einmal oder mehrmals vorkommen.
-->
<!ELEMENT NAME (NACHNAME, VORNAME, ORTSZUSATZ, ADEL, PRAEFIX, ANREDE_TITEL, AKAD_TITEL, HISTORIE_VON, HISTORIE_BIS)>
<!--Namensbestandteile je Name des Abgeordneten einschl. Namenshistorie
-->
<!ELEMENT GEBURTSDATUM (#PCDATA)>
<!--Geburtsdatum des Abgeordneten
-->
<!ELEMENT GEBURTSORT (#PCDATA)>
<!--Geburtsort des Abgeordneten
-->
<!ELEMENT GEBURTSLAND (#PCDATA)>
<!--Geburtsland des Abgeordneten
-->
<!ELEMENT STERBEDATUM (#PCDATA)>
<!--Sterbedatum des Abgeordneten
-->
<!ELEMENT GESCHLECHT (#PCDATA)>
<!--Geschlecht des Abgeordneten
-->
<!ELEMENT BERUF (#PCDATA)>
<!--Beruf des Abgeordneten
-->
<!ELEMENT PARTEI_KURZ (#PCDATA)>
<!--Parteizugehörigkeit des Abgeordneten - Kurzform
-->
<!ELEMENT VITA_KURZ (#PCDATA)>
<!--Kurzbiografie des Abgeordneten (nur aktuelle Wahlperiode)
-->
<!ELEMENT VEROEFFENTLICHUNGSPFLICHTIGES (#PCDATA)>
<!--Veröffentlichungspflichtige Angaben des Abgeordneten (nur aktuelle Wahlperiode)
Kategorien der Veröffentlichung
1. Berufliche Tätigkeit vor der Mitgliedschaft im Deutschen Bundestag
(§ 1 Abs. 1 Nr. 1 VR, Nr. 2 und 5 Ausführungsbestimmungen - AB)
2. Entgeltliche Tätigkeiten neben dem Mandat
(§ 1 Abs. 2 Nr. 1 VR, Nr. 3, 4 und 8 AB)
3. Funktionen in Unternehmen
(§ 1 Abs. 2 Nr. 2 VR, Nr. 3 AB)
4. Funktionen in Körperschaften und Anstalten des öffentlichen Rechts
(§ 1 Abs. 2 Nr. 3 VR, Nr. 3 AB)
5. Funktionen in Vereinen, Verbänden und Stiftungen
(§ 1 Abs. 2 Nr. 4 VR, Nr. 3 AB)
6. Vereinbarungen über künftige Tätigkeiten oder Vermögensvorteile
(§ 1 Abs. 2 Nr. 5 VR, Nr. 6 AB)
7. Beteiligungen an Kapital- oder Personengesellschaften
(§ 1 Abs. 2 Nr. 6 VR, Nr. 7 AB)
8. Spenden
(§ 4 VR, Nr. 10 AB)
-->
<!ELEMENT WAHLPERIODE (WP, MDBWP_VON, MDBWP_BIS, WKR_NUMMER, WKR_NAME, WKR_LAND, LISTE, MANDATSART, INSTITUTIONEN)>
<!--Angaben je Wahlperiode des Abgeordneten
-->
<!ELEMENT NACHNAME (#PCDATA)>
<!--Nachname des Abgeordneten
-->
<!ELEMENT VORNAME (#PCDATA)>
<!--VORNAME des Abgeordneten
-->
<!ELEMENT ORTSZUSATZ (#PCDATA)>
<!--Ortszusatz zu NACHNAME, zur Unterscheidung bei Namensgleichheit
z.B. (Berlin)
-->
<!ELEMENT ADEL (#PCDATA)>
<!--Adelsprädikat (z.B. Freiherr, Baron u.ä.)
-->
<!ELEMENT PRAEFIX (#PCDATA)>
<!--Namenspräfix (z.B. von, van u.ä.)
-->
<!ELEMENT ANREDE_TITEL (#PCDATA)>
<!--Anrede-Titel des Abgeordneten (z.B. Dr., Prof. u.ä.)
-->
<!ELEMENT AKAD_TITEL (#PCDATA)>
<!--Akademischer Titel des Abgeordneten (z.B. Dr.-Ing., Prof. Dr. h. c. u.ä.)
-->
<!ELEMENT HISTORIE_VON (#PCDATA)>
<!--Historie zu den Namensbestandteilen des Abgeordneten - gültig von
Format: TT.MM.JJJJ
(ab Eintritt in den Bundestag oder ab Änderung der Namensbestandteile während des Mandates (z.B. durch Heirat))
-->
<!ELEMENT HISTORIE_BIS (#PCDATA)>
<!--Historie zu den Namensbestandteilen des Abgeordneten - gültig bis
Format: TT.MM.JJJJ
(bei Änderung der Namensbestandteile während des Mandates)
-->
<!ELEMENT WP (#PCDATA)>
<!--Nummer der Wahlperiode
Format: 1 oder 2-stellig
-->
<!ELEMENT MDBWP_VON (#PCDATA)>
<!--Beginn der Wahlperiodenzugehörigkeit des Abgeordneten
Format: TT.MM.JJJJ
-->
<!ELEMENT MDBWP_BIS (#PCDATA)>
<!--Ende der Wahlperiodenzugehörigkeit des Abgeordneten
Format: TT.MM.JJJJ
-->
<!ELEMENT WKR_NUMMER (#PCDATA)>
<!--Nummer des Wahlkreises, in dem der MDB kandidiert hat oder gewählt wurde.
Format: 1 bis 3-stellig
-->
<!ELEMENT WKR_NAME (#PCDATA)>
<!--Wahlkreisname, in dem der MDB kandidiert hat oder gewählt wurde.
-->
<!ELEMENT WKR_LAND (#PCDATA)>
<!--Kurzbezeichnung des Bundeslandes,
in dem der Wahlkreis liegt, in dem der MDB kandidiert hat oder gewählt wurde.
-->
<!ELEMENT LISTE (#PCDATA)>
<!--Kurzbezeichnung der Liste, über die der MDB kandidiert hat oder gewählt wurde.
Normalform: Bundeslandkürzel
Ausnahmen: * Eingliederung Saarland, ** Berlin West Änderungsgesetz, *** von der Volkskammer gewählt
Format: 1 bis 3-stellig
-->
<!ELEMENT MANDATSART (#PCDATA)>
<!--Art des Mandates (Direktmandat, Landesliste oder Volkskammer)
-->
<!ELEMENT INSTITUTIONEN (INSTITUTION*)>
<!--Angaben zu Institutionen (hier: nur Fraktion, außer aktuelle Wahlperiode)
Element kann einmal oder mehrmals vorkommen.
-->
<!ELEMENT INSTITUTION (INSART_LANG, INS_LANG, MDBINS_VON, MDBINS_BIS, FKT_LANG, FKTINS_VON, FKTINS_BIS)>
<!--Angaben je Institution (hier: nur Fraktion, außer aktuelle Wahlperiode)
-->
<!ELEMENT INSART_LANG (#PCDATA)>
<!--Langbezeichnung der Institutionsart
(z.B. Fraktion, Ausschuss usw., hier: nur Fraktion, außer aktuelle Wahlperiode)
-->
<!ELEMENT INS_LANG (#PCDATA)>
<!--Langbezeichnung der Institution
(z.B. Fraktionsname, Ausschussname usw., hier: nur Fraktion, außer aktuelle Wahlperiode)
-->
<!ELEMENT MDBINS_VON (#PCDATA)>
<!--Beginn der Institutionszugehörigkeit des Abgeordneten
Format: TT.MM.JJJJ
-->
<!ELEMENT MDBINS_BIS (#PCDATA)>
<!--Ende der Institutionszugehörigkeit des Abgeordneten
Format: TT.MM.JJJJ
-->
<!ELEMENT FKT_LANG (#PCDATA)>
<!--Langbezeichnung der ausgeübten Funktion des Abgeordneten in einer Institution
(z.B. Ordentliches Mitglied, Vorsitzender, Stellvertreter usw.)
-->
<!ELEMENT FKTINS_VON (#PCDATA)>
<!--Beginn der Funktionsausübung des Abgeordneten in einer Institution
Format: TT.MM.JJJJ
-->
<!ELEMENT FKTINS_BIS (#PCDATA)>
<!--Ende der Funktionsausübung des Abgeordneten in einer Institution
Format: TT.MM.JJJJ
-->

394217
data/MdB_data/MdB_Stammdaten.xml Executable file

File diff suppressed because it is too large Load Diff

7
data/MdB_data/metadata.md Executable file
View File

@ -0,0 +1,7 @@
# Metadaten:
Stammdaten sind zum letzten mal von Seiten der Bundesregierung am 04.10.2018 geändert worden.
Quelle: https://www.bundestag.de/blob/472878/e207ab4b38c93187c6580fc186a95f38/mdb-stammdaten-data.zip
Alle Abgeordneten seit 1949, seit der ersten Sitzung des Bundestags.
# Veränderungen:
Habe GB/BHE zu GB/ BHE geändert.

47
data/metadata.md Executable file
View File

@ -0,0 +1,47 @@
# Metadaten:
## Datum:
- Alle Protokolle heruntergeladen am: 14.10.2018
- Protokolle der Wahlperioden 01. bis 17. von Seiten der Bundesregierung zuletzt geändert am: 09.07.2015
- Protokolle der 18. Wahlperiode von Seiten der Bundesregierung zuletzt geändert am: 09.01.2018
- Protokolle 15., 16. und 17. sind fehlerhaft. Wurden erstmal ausgegliedert.
## Herkunft.
- Quelle: https://www.bundestag.de/service/opendata
## Anzahl:
### Einzelne Wahlperioden:
01. Wahlperiode: 282
02. Wahlperiode: 227
04. Wahlperiode: 168
05. Wahlperiode: 198
03. Wahlperiode: 247
06. Wahlperiode: 199
08. Wahlperiode: 259
07. Wahlperiode: 230
09. Wahlperiode: 142
10. Wahlperiode: 256
11. Wahlperiode: 236
12. Wahlperiode: 243
13. Wahlperiode: 248
14. Wahlperiode: 253
15. Wahlperiode: 187
16. Wahlperiode: 233
17. Wahlperiode: 253
18. Wahlperiode: 245
### Grundgesamtheit:
**01. bis 18.** Wahlperiode: 4106
**01.bis einschließlich 14. und 18.** Wahlperiode: 3433
## Theoretische Stichprobengröße:
Die Stichprobe kann mit einer klastischen Standardformel berechnet werden.
Mit folgenden Input Werten:
- Populationsgröße/Grundgesamtheit: 4106
- Vertrauensintervall/Sicherheit/Irrtumswahrscheinlichkeit(dann 5%): 95%
- Fehlerspanne: 5%
- Population Proportion/ Antwortsverteilung: 50%
- Ergebnis: Stichprobengröße: 352
- Mit einer Fehlerspanne von 5,45% beträgt die Stichprobengröße 300 Ist denke ich akzeptabel.
- Neue Stichprobengröße beträgt um die 264 Protokolle

View File

@ -0,0 +1,297 @@
<?xml version="1.0" encoding="UTF-8"?>
<!--DTD für Plenar-Protokolle des Deutschen Bundestags
Erstellt von: SRZ - Satz-Rechen-Zentrum Hartmann+Heenemann GmbH&Co. KG
Bearbeitet: Ute Mitschke
Stand: 19.05.2015
Anzeige der DTD optimiert für XMLSpy
<!DOCTYPE dbtplenarprotokoll SYSTEM "dbtplenarprotokoll.dtd">
-->
<!ENTITY % inline-elemente "xref | sub | sup | fussnote | a" >
<!ELEMENT sub (#PCDATA) >
<!ELEMENT sup (#PCDATA) >
<!ELEMENT dbtplenarprotokoll (vorspann, sitzungsverlauf, anlagen, rednerliste) >
<!ATTLIST dbtplenarprotokoll
wahlperiode CDATA #REQUIRED
sitzung-nr CDATA #REQUIRED
sitzung-datum CDATA #REQUIRED
sitzung-start-uhrzeit CDATA #REQUIRED
sitzung-ende-uhrzeit CDATA #REQUIRED
sitzung-naechste-datum CDATA #REQUIRED
sitzung-ort CDATA #FIXED "Berlin"
herausgeber CDATA #FIXED "Deutscher Bundestag"
herstellung CDATA #FIXED "H. Heenemann GmbH Co., Buch- und Offsetdruckerei, Bessemerstraße 8391, 12103 Berlin, www.heenemann-druck.de"
vertrieb CDATA #FIXED "Bundesanzeiger Verlagsgesellschaft mbH, Postfach 1 0 05 34, 50445 Köln, Telefon (02 21) 97 66 83 40, Fax (02 21) 97 66 83 44, www.betrifft-gesetze.de"
issn CDATA #FIXED "0722-7980"
start-seitennr CDATA #REQUIRED
version CDATA #IMPLIED
status (erfasst | korrektur | freigegeben) #IMPLIED
kommentare CDATA #IMPLIED
>
<!-- VORSPANN ===================================-->
<!ELEMENT vorspann (kopfdaten, inhaltsverzeichnis) >
<!ELEMENT kopfdaten (plenarprotokoll-nummer, herausgeber, berichtart, sitzungstitel, veranstaltungsdaten) >
<!-- "Plenarprotokoll 17/228" 1. Seite oben rechts -->
<!ELEMENT plenarprotokoll-nummer (#PCDATA | wahlperiode | sitzungsnr )* >
<!ELEMENT wahlperiode (#PCDATA) >
<!ELEMENT sitzungsnr (#PCDATA) >
<!-- "Deutscher Bundestag" -->
<!ELEMENT herausgeber (#PCDATA) >
<!-- "Stenografischer Bericht" -->
<!ELEMENT berichtart (#PCDATA) >
<!-- "228. Sitzung" -->
<!ELEMENT sitzungstitel (#PCDATA | sitzungsnr)* >
<!-- "Berlin, Donnerstag, den 14. März 2013" -->
<!ELEMENT veranstaltungsdaten (#PCDATA | ort | datum)* >
<!-- "Berlin" -->
<!ELEMENT ort (#PCDATA) >
<!-- "Donnerstag, den 14. März 2013", Attribut date im Format TT.MM.JJJJ -->
<!ELEMENT datum (#PCDATA) >
<!ATTLIST datum
date CDATA #REQUIRED >
<!-- INHALTSVERZEICHNIS ===============================-->
<!ELEMENT inhaltsverzeichnis (ivz-titel, (ivz-block | ivz-eintrag)+)>
<!-- "Inhalt:" -->
<!ELEMENT ivz-titel (#PCDATA) >
<!ELEMENT ivz-block (ivz-block-titel?, (ivz-eintrag | ivz-block | p)+) >
<!ELEMENT ivz-block-titel (#PCDATA) >
<!ELEMENT ivz-eintrag (#PCDATA | ivz-eintrag-inhalt | xref | a)* >
<!ELEMENT ivz-eintrag-inhalt (#PCDATA | redner )* >
<!ELEMENT a (#PCDATA | seite | seitenbereich)* >
<!ATTLIST a
typ (druckseitennummer | bild | tabelle) #IMPLIED
id CDATA #IMPLIED
name CDATA #IMPLIED
href CDATA #IMPLIED
>
<!ELEMENT seite (#PCDATA) >
<!ELEMENT seitenbereich (#PCDATA) >
<!ELEMENT xref (#PCDATA | a)* >
<!ATTLIST xref
ref-type (rede | kommentar | anlage) #REQUIRED
rid CDATA #REQUIRED
pnr CDATA #REQUIRED
div CDATA #IMPLIED
>
<!-- SITZUNGSVERLAUF =============================-->
<!ELEMENT sitzungsverlauf (sitzungsbeginn?, rede*, tagesordnungspunkt+, sitzungsende?) >
<!ELEMENT sitzungsbeginn (#PCDATA | p | zitat | kommentar | a | name)* >
<!ATTLIST sitzungsbeginn sitzung-start-uhrzeit CDATA #REQUIRED >
<!ELEMENT tagesordnungspunkt (top-titel | name | rede | p | zitat | kommentar | a)* >
<!ATTLIST tagesordnungspunkt top-id CDATA #IMPLIED >
<!ELEMENT top-titel (#PCDATA | p | a)* >
<!ELEMENT sitzungsende (#PCDATA | p | a)* >
<!ATTLIST sitzungsende sitzung-ende-uhrzeit CDATA #REQUIRED >
<!-- REDE =======================================-->
<!ELEMENT rede (name | p | kommentar | zitat | a)+ >
<!ATTLIST rede
id ID #REQUIRED
redeart (plenum | zu_protokoll | zu_protokoll_anlage) #IMPLIED
>
<!ELEMENT redner (name)>
<!ATTLIST redner
id CDATA #REQUIRED
>
<!-- NAME
-->
<!ELEMENT name (#PCDATA | titel | vorname | nachname | namenszusatz | ortszusatz | fraktion | rolle | bdland)* >
<!ELEMENT titel (#PCDATA) >
<!ELEMENT vorname (#PCDATA) >
<!ELEMENT namenszusatz (#PCDATA) >
<!ELEMENT nachname (#PCDATA) >
<!ELEMENT ortszusatz (#PCDATA) >
<!ELEMENT fraktion (#PCDATA) >
<!ELEMENT rolle (rolle_lang | rolle_kurz)* >
<!ELEMENT rolle_lang (#PCDATA) >
<!ELEMENT rolle_kurz (#PCDATA) >
<!ELEMENT bdland (#PCDATA) >
<!-- Kommentar entsteht aus "K", "K-block", "K_klein" mit jedem Span -->
<!ELEMENT kommentar (#PCDATA | p | %inline-elemente;)* >
<!-- P (WIE PARAGRAF/ABSATZ)-->
<!ELEMENT p (#PCDATA | redner | table | %inline-elemente;)* >
<!ATTLIST p
klasse CDATA #IMPLIED
>
<!-- FUSSNOTE -->
<!ELEMENT fussnote (#PCDATA | p)* >
<!-- ZITAT -->
<!ELEMENT zitat (#PCDATA | p | %inline-elemente;)* >
<!-- ANLAGEN ===================================-->
<!ELEMENT anlagen (anlagen-titel?, anlage+) >
<!ELEMENT anlage (anlagen-titel?, anlagen-text+) >
<!ELEMENT anlagen-titel (#PCDATA | p | %inline-elemente;)* >
<!ELEMENT anlagen-text (#PCDATA | p | kommentar | rede | table | zitat | %inline-elemente;)* >
<!ATTLIST anlagen-text anlagen-typ CDATA #IMPLIED >
<!-- REDNERLISTE ===============================-->
<!ELEMENT rednerliste (redner+) >
<!ATTLIST rednerliste
sitzung-datum CDATA #REQUIRED
>
<!-- Tables ===================================-->
<!ENTITY % TFrame "(void|above|below|hsides|lhs|rhs|vsides|box|border)">
<!ENTITY % TRules "(none | groups | rows | cols | all)">
<!ENTITY % TAlign "(left|center|right)">
<!ENTITY % Character "CDATA">
<!ENTITY % Number "CDATA">
<!ENTITY % Length "CDATA">
<!ENTITY % MultiLength "CDATA">
<!ENTITY % MultiLengths "CDATA">
<!ENTITY % Pixels "CDATA">
<!ENTITY % Text "CDATA">
<!ENTITY % Color "CDATA">
<!ENTITY % cellhalign
"align (left|center|right|justify|char) #IMPLIED
char %Character; #IMPLIED
charoff %Length; #IMPLIED"
>
<!ENTITY % cellvalign
"valign (top|middle|bottom|baseline) #IMPLIED"
>
<!ENTITY % Scope "(row|col|rowgroup|colgroup)">
<!ELEMENT table
(caption?, (col*|colgroup*), thead?, tfoot?, (tbody+|tr+))>
<!ELEMENT caption (#PCDATA)>
<!ELEMENT thead (tr)+>
<!ELEMENT tfoot (tr)+>
<!ELEMENT tbody (tr)+>
<!ELEMENT colgroup (col)*>
<!ELEMENT col EMPTY>
<!ELEMENT tr (th|td)+>
<!ELEMENT th (#PCDATA | %inline-elemente;)*>
<!ELEMENT td (#PCDATA | %inline-elemente;)*>
<!ATTLIST table
summary %Text; #IMPLIED
width %Length; #IMPLIED
border %Pixels; #IMPLIED
frame %TFrame; #IMPLIED
rules %TRules; #IMPLIED
cellspacing %Length; #IMPLIED
cellpadding %Length; #IMPLIED
align %TAlign; #IMPLIED
bgcolor %Color; #IMPLIED
>
<!ENTITY % CAlign "(top|bottom|left|right)">
<!ATTLIST caption
align %CAlign; #IMPLIED
>
<!ATTLIST colgroup
span %Number; "1"
width %MultiLength; #IMPLIED
%cellhalign;
%cellvalign;
>
<!ATTLIST col
span %Number; "1"
width %MultiLength; #IMPLIED
%cellhalign;
%cellvalign;
>
<!ATTLIST thead
%cellhalign;
%cellvalign;
>
<!ATTLIST tfoot
%cellhalign;
%cellvalign;
>
<!ATTLIST tbody
%cellhalign;
%cellvalign;
>
<!ATTLIST tr
%cellhalign;
%cellvalign;
bgcolor %Color; #IMPLIED
>
<!ATTLIST th
abbr %Text; #IMPLIED
axis CDATA #IMPLIED
headers IDREFS #IMPLIED
scope %Scope; #IMPLIED
rowspan %Number; "1"
colspan %Number; "1"
%cellhalign;
%cellvalign;
nowrap (nowrap) #IMPLIED
bgcolor %Color; #IMPLIED
width %Pixels; #IMPLIED
height %Pixels; #IMPLIED
>
<!ATTLIST td
abbr %Text; #IMPLIED
axis CDATA #IMPLIED
headers IDREFS #IMPLIED
scope %Scope; #IMPLIED
rowspan %Number; "1"
colspan %Number; "1"
%cellhalign;
%cellvalign;
nowrap (nowrap) #IMPLIED
bgcolor %Color; #IMPLIED
width %Pixels; #IMPLIED
height %Pixels; #IMPLIED
>