100 lines
5.1 KiB
HTML
Executable File
100 lines
5.1 KiB
HTML
Executable File
{% extends "blog/base.html" %}
|
|
{% load static %}
|
|
|
|
<!-- This template is used to create the about page. It mostly serves static text.-->
|
|
|
|
{% block content %}
|
|
<div class="parallax-container">
|
|
<div class="section white">
|
|
<div class="row ">
|
|
<div class="container grey-text text-darken-3 lighten-3">
|
|
<h4 class="header black-text">Die Masterarbeit</h4>
|
|
<p>Diese Webseite sowie die für diese benötigten Daten sind im Rahmen einer Masterarbeit entstanden. In der Arbeit sind die Funktionsweise
|
|
der Software für die automatische Auszeichnung der
|
|
Bundestagsplenarprotokolle sowie die der Webanwendung
|
|
beschrieben. Die Arbeit kann <a href="https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_web_app/raw/24641c2959796659d428514c9cdd3782d4248da0/2019-02-04_Stephan_Porada_Masterthesis_semi.pdf?inline=false">hier gelesen</a> werden.<p>
|
|
<p>Weiter unten sind einige grundlegende Aspekte des Projekts kurz beschrieben. Ebenfalls kann dort der Quellcode der Webanwendung und der Software für die automatische Auszeichnung heruntergeladen werden.</p>
|
|
</div>
|
|
</div>
|
|
</div>
|
|
<div class="parallax"><img src="{% static "/blog/images/4094966.jpg" %}"></div>
|
|
</div>
|
|
<div class="parallax-container">
|
|
<div class="section white">
|
|
<div class="row ">
|
|
<div class="container grey-text text-darken-3 lighten-3">
|
|
<h4 class="header black-text">Datengrundlage</h4>
|
|
<p>Die Ausgangsdaten, welche für das Projekt genutzt wurden, sind für
|
|
alle Bürger und Bürgerinnen auf der
|
|
<a href="https://www.bundestag.de/service/opendata">Webseite des Bundestag</a>
|
|
frei zugänglich.</p>
|
|
<p>Im Rahmen einer Open
|
|
Data-Initiative stellt der deutsche Bundestag alle Plenarprotokolle
|
|
sowie die biografischen Daten aller Abgeordneten seit 1949 als
|
|
XML-Dateien zur Verfügung.</p>
|
|
<p>
|
|
Das Projekt Bundesdata umfasst alle XML-Protokolle der Wahlperioden 1.
|
|
bis 18. und deckt somit den Zeitraum von 1949 bis 2017 ab.<p>
|
|
</div>
|
|
</div>
|
|
</div>
|
|
<div class="parallax"><img src="{% static "/blog/images/4094966.jpg" %}"></div>
|
|
</div>
|
|
<div class="parallax-container">
|
|
<div class="section white">
|
|
<div class="row ">
|
|
<div class="container grey-text text-darken-3 lighten-3">
|
|
<h4 class="header black-text">Automatische Auszeichnung</h4>
|
|
<p>Da die von derBundesregierung bereitstellen XML-Protokolle nur wenig
|
|
bis keine maschinenlesbare Informationen dazu enthalten, welcher
|
|
Abgeordnete oder welche Abgeordnete zu welchem Zeitpunkt einen Redebeitrag
|
|
im Bundestag hatte, sind die Ausgangsdaten im Rahmen des Projekts
|
|
automatisch mit weiteren Informationen angereichert und strukturiert
|
|
worden. Hierfür wurde eine eigene Software entwickelt, die die öffentlich verfügbaren XML-Protokolle automatisch mit zusätzliche Metadaten auszeichnet. Diese Auszeichnung ermöglicht es die Protokolle auf der Website strukturiert darzustellen und durchsuchbar zu machen. Ebenfalls können so auch erst die N-Gramme für den Ngram Viewer berechnet werden.</p>
|
|
</div>
|
|
</div>
|
|
</div>
|
|
<div class="parallax"><img src="{% static "/blog/images/4094966.jpg" %}"></div>
|
|
</div>
|
|
<div class="parallax-container">
|
|
<div class="section white">
|
|
<div class="row ">
|
|
<div class="container grey-text text-darken-3 lighten-3">
|
|
<h4 class="header black-text">Quellcode für Software und Webanwendung</h4>
|
|
<p>
|
|
Der Quellcode für die eigens entwickelte Software, welche die automatische
|
|
Auszeichnung erstellt hat, kann auf <a href="https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_software">GitLab</a> eingesehen und
|
|
heruntergeladen werden. Der Quellcode für die Webseite ist ebenfalls
|
|
auf <a href="https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_web_app">GitLab</a> verfügbar.</p>
|
|
</div>
|
|
</div>
|
|
</div>
|
|
<div class="parallax"><img src="{% static "/blog/images/4094966.jpg" %}"></div>
|
|
</div>
|
|
<div class="parallax-container">
|
|
<div class="section white">
|
|
<div class="row ">
|
|
<div class="container grey-text text-darken-3 lighten-3">
|
|
<h4 class="header black-text">Download der ausgezeichneten Daten</h4>
|
|
<p>
|
|
Die für das Projekt mittels der eigenen Software erstellten XML-Protokolle sowie weitere Forschungsdaten können <a href="https://gitlab.ub.uni-bielefeld.de/sporada/bundesdata_markup_nlp_data"> hier heruntergeladen werden</a>.</p>
|
|
</div>
|
|
</div>
|
|
</div>
|
|
<div class="parallax"><img src="{% static "/blog/images/4094966.jpg" %}"></div>
|
|
</div>
|
|
<div class="parallax-container">
|
|
<div class="section white">
|
|
<div class="row ">
|
|
<div class="container grey-text text-darken-3 lighten-3">
|
|
<h4 class="header black-text">Fehlerquoten und Probleme der Ausgangsdaten</h4>
|
|
<p>Die automatische Auszeichnung der Protokolle ist nicht gänzlich fehlerfrei.
|
|
Somit können Fehler bei der Darstellung der Reden auf der Website auftreten.
|
|
Wie hoch genau die einzelen Fehlerqouten sind, ist in der <a href="#">Masterarbeit</a> beschrieben</p>
|
|
</div>
|
|
</div>
|
|
</div>
|
|
<div class="parallax"><img src="{% static "/blog/images/4094966.jpg" %}"></div>
|
|
</div>
|
|
{% endblock content %}
|