Added some explanations

2019-03-03 14:39:46 +01:00
parent ffb0acf3d7
commit b444701093
19 changed files with 215 additions and 20 deletions
@@ -6,21 +6,22 @@ class NgramForm(forms.Form):
    Describes and configures the input html form for the Ngram Viewer per year.
    """
    CORPUS_CHOICE = [('lm_ns_year', 'Lemmatisiert ohne Stoppwörter'),
-                     ('tk_ws_year', 'Nicht lemmatisiert mit Stoppwörtern'),]
-    query = forms.CharField(label="Suche Ngramme", max_length="200")
+                     ('tk_ws_year', 'Nicht lemmatisiert mit Stoppwörtern'), ]
+    query = forms.CharField(label="Suche N-Gramme", max_length="200")
    case_sensitive = forms.BooleanField(label="case-sensitive", required=False)
    search_plus = forms.BooleanField(label="search-plus", required=False)
    ignore_missing = forms.BooleanField(label="fill-zeros", required=False)

    corpus_choice = forms.ChoiceField(label="Wählen Sie einen Corpus", choices=CORPUS_CHOICE)

+
 class NgramFormSpeaker(forms.Form):
    """
    Describes and configures the input html form for the Ngram Viewer per speaker.
    """
    CORPUS_CHOICE = [('lm_ns_speaker', 'Lemmatisiert ohne Stoppwörter'),
-                     ('tk_ws_speaker', 'Nicht lemmatisiert mit Stoppwörtern'),]
-    query = forms.CharField(label="Suche Ngramm", max_length="200")
+                     ('tk_ws_speaker', 'Nicht lemmatisiert mit Stoppwörtern'), ]
+    query = forms.CharField(label="Suche N-Gramm", max_length="200")
    case_sensitive = forms.BooleanField(label="case-sensitive", required=False)
    search_plus = forms.BooleanField(label="search-plus", required=False)
    ignore_missing = forms.BooleanField(label="fill-zeros", required=False)
@@ -65,7 +65,7 @@ query. This creates the ngram viewer per speaker. -->
                            <div class="divider"></div>
                            <div class="section">
                            <div class="input-field col s12">
-                                <i class="material-icons prefix">filter_9_plus</i>
+                                <i class="material-icons prefix blue-grey-text darken-4">filter_9_plus</i>
                                <input id="id_query" type="text" name="{{form.range.html_name}}" class="autocomplete materialize-textarea validate" {% if form.range.value != None %}value = "{{form.range.value}}" {% else %}value = "10" {% endif %}}>
                                <label for="id_range">{{form.range.label}}</label>
                            </div>
@@ -76,14 +76,109 @@ query. This creates the ngram viewer per speaker. -->
                </div>
            </div>
        </div>
-        <ul class="collapsible">
+        <ul class="collapsible white">
+            <li class="active">
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">info_outline</i>Was ist das hier?</div>
+                <div class="collapsible-body">
+                    <p>Mit diesem Tool können alle Protokolle von 1949 bis 2017
+                        nach einem Begriff durchsucht werden. Für diesen
+                        wird pro MdB dargestellt wie häufig dieses in seinen Reden
+                        und Redebeiträgen den gesuchten Begriff verwendet hat.
+                    </p>
+                    <p>Der Begriff kann eine Phrase mit der Länge von
+                        ein bis fünf Wörter sein.
+                        Eine weitere Suchanfrage wäre z.B. "Steuer erhöhen"</p>
+                </div>
+            </li>
            <li>
-                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">info_outline</i>Hilfe und Hinweise</div>
-                <div class="collapsible-body white">
-                    <h6>Muster der Suchanfrage<h6>
-                    <p></p>
-                    <h6>Suchgeschwindigkeit<h6>
-                    <p></p>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">search</i>Muster der Suchanfrage</div>
+                <div class="collapsible-body">
+                    <p>Eine Suchanfrage ist ein einzelner Begriff bzw. einzelne Phrase.</p>
+                    <p>Die beispielhafte Suchanfrage "Ausländer"
+                        fragt somit die Häufigkeit des Begriffs ab.
+                        Es kann nur ein BEgriff gleichzeitig gesucht werden.</p>
+                    <p>Eine weitere Suchanfrage wäre z.B. "Steuerflucht"</p>
+                    <p>Es können nicht nur einzelne Wörter, sondern je nach Korpus
+                        Phrasen mit einer Länge von bis zu fünf Wörtern abgefragt werden.
+                        Eine beispielhafte Suchanfrage wäre z.B. "Steuer erhöhen".
+                    </p>
+                    <p>Möglich wird diese Art der Abfrage dadurch, das für alle Protokolle
+                        sogenannte N-Gramme berechnet wurden.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">short_text</i>Was sind N-Gramme?</div>
+                <div class="collapsible-body">
+                    <p>Für die Berechnung von N-Grammen wird ein Text in einzelne
+                        Fragmente zerlegt, die dann in ihrer Häufigkeit gezählt werden können.
+                        N gibt hierbei die Länge der einzelen Fragmente an.
+                        Ist z.B. der Satz "to be or not to be that is the question."
+                        gegeben, kann für diesen die dazugehörigen 1-Gramme berechnet werden.
+                        Diese wären dann: "to, be, or, not, to, be, that, is, the, question".
+                        Nun kann die Häufigkeit der einzelnen Wörter gezählt werden.
+                        Somit kommen die Wörter "to" und "be" zweimal vor und die restlichen
+                        Wörter jeweils einmal.</p>
+                    <p>Diese Art der Berechnung kann dann auch für 2-Gramme durchgführt
+                        werden. Der Satz würde dafür in folgende Fragemente zerlegt werden:
+                        "To be, be or, or not, not to, to be, be that, that is, is the, the question".
+                        Nun kann die Häufigkeit von zwei aufeinander folgenden Wörtern ermittelt werden.
+                        Die Phrase "to be" kommt innerhalb des Satzes somit zweimal
+                        und alle anderen nur einmal vor.</p>
+                    <p>Dieser Prozess kann weitere Male wiederholt werden z.B. für 3-, 4- oder 5-Gramme.</p>
+                    <p>Diese Art der Berechnung wurde für alle Protokolle der Bundestagssitzungen
+                        seit 1949 bis 2017 durchgeführt, um die Häufigkeiten verschiedener
+                        Begriffe bzw. Phrasen pro Jahr darstellen zu können.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">filter_2</i>Verschiedene Korpora</div>
+                <div class="collapsible-body">
+                    <p>Mit der Option "Korpus" kann zwischen zwei verschiedenen
+                        Korpora gewechselt werden, an die die Suchanfrage gestellt wird.</p>
+                    <p>Bei der Korpusauswahl "Lemmatisiert ohne Stoppwörter" werden
+                        N-Gramme abgefragt, die auf Grundlage der lemmatisierten Protokolle
+                        ohne Stopwörter berechnet wurden. Das bedeutet, dass alle Wörter der
+                        Protokolle auf ihre Grundform zurückgeführt und häufige
+                        Wörter wie "ist" oder "ein" entfernt wurden. Aus dem Satz
+                        "Guten Morgen, liebe Kolleginnen und Kollegen! Ich begrüße Sie alle herzlich."
+                        wird so die Zeichenfolge
+                        "Guten Morgen lieb Kollegin Kollege ich begrüßen ich herzlich"
+                        N-Gramme die für die beiden Sätze berechnet werden unterscheiden sich somit
+                        erheblich.</p>
+                    <p> Der Korpus "Nicht lemmatisiert mit Stoppwörtern" lässt den
+                        Satz unberührt.</p>
+                    <p>Beide Korpora eignen sich für verschiedene Suchanfragen.
+                        Möchte eher die Häufigkeit von zusammengefassten Begriffen ermittelt
+                        werden, kann der Korpus "Lemmatisiert ohne Stoppwörter" verwendet
+                        werden. <br />
+                        Werden jedoch eher ganze Phrasen wie "Kampf gegen den Terror"
+                        gesucht, sollte der Korpus "Nicht lemmatisiert mit Stoppwörtern"
+                        vewrwendet werden.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">close</i>Grenzen der Suchanfrage</div>
+                <div class="collapsible-body">
+                    <p>Für den Korpus "Lemmatisiert ohne Stoppwörter" können 1-
+                        bis 5-Gramme abgefragt werden.</p>
+                    <p>Der Korpus "Nicht lemmatisiert mit Stoppwörtern" ist auf
+                        eine Abfrage von 1- bis 4-Grammen begrenzt.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">access_time</i>Suchgeschwindigkeit</div>
+                <div class="collapsible-body">
+                    <p>Die Suchanfragen für 1-Gramme ist sehr schnell.
+                        Werden komplexere 2-, 3-, 4- oder 5-Gramme abgefragt, ist mit
+                        einer Bearbeitungszeit von einigen Sekunden zu rechnen.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">poll</i>Interpretation der Daten</div>
+                <div class="collapsible-body">
+                    <p>Aus den Ergebnissen einer Suchanfrage sollten keine vorschnellen
+                        Kausalitäten abgeleitet werden. Die verschiedenen Häufigkeiten sollten
+                        immer im Kontext ihrer Zeit und politscher Ereignisse gesehen werden.</p>
                </div>
            </li>
        </ul>
@@ -76,14 +76,113 @@ query. This creates the ngram viewer per year. -->
                </div>
            </div>
        </div>
-        <ul class="collapsible">
+        <ul class="collapsible white">
+            <li class="active">
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">info_outline</i>Was ist das hier?</div>
+                <div class="collapsible-body">
+                    <p>Mit diesem Tool können alle Protokolle von 1949 bis 2017
+                        nach verschiedenen Begriffen durchsucht werden. Für jeden
+                        Begriff wird pro Jahr dargestellt wie häufig dieser von den
+                        Rednern und MdBs im deutschen Bundestag in deren
+                        Reden und Redebeiträge insgesamt verwendet wurde.</p>
+                    <p>Begriffe bzw. Phrasen können ein bis fünf Wörter lang sein.
+                        Eine weitere Suchanfrage wäre z.B. "Steuer erhöhen, Steuer senken, schwarze Null"</p>
+                </div>
+            </li>
            <li>
-                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">info_outline</i>Hilfe und Hinweise</div>
-                <div class="collapsible-body white">
-                    <h6>Muster der Suchanfrage<h6>
-                    <p></p>
-                    <h6>Suchgeschwindigkeit<h6>
-                    <p></p>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">search</i>Muster der Suchanfrage</div>
+                <div class="collapsible-body">
+                    <p>Eine Suchanfrage ist eine durch Kommata getrennte
+                        Zeichenkette. Durch die Kommata werden verschiedene Begriffe
+                        voneinander getrennt und einzeln abgefragt.</p>
+                    <p>Die beispielhafte Suchanfrage "Kroatien, Krieg, Asyl"
+                        fragt somit die Häufigkeit der drei verschiedenen Wörter ab.
+                        Es können beliebig viele Begriffe aneinander gereit werden.</p>
+                    <p>Eine weitere Suchanfrage wäre z.B. "Kroatien, Krieg, Asyl,
+                        Syrien, Europa"</p>
+                    <p>Es können nicht nur einzelne Wörter, sondern je nach Korpus
+                        Phrasen mit einer Länge von bis zu fünf Wörtern abgefragt werden.
+                        Eine beispielhafte Suchanfrage wäre z.B. "Steuer erhöhen, Steuer senken, schwarze Null".
+                        Es können gleichzeitig Phrasen verschiedener Länge abgefragt werden.
+                        Ein Beispiel hierfür ist "Steuer erhöhen, Steuer senken, schwarze Null, Steuerbetrug".
+                    </p>
+                    <p>Möglich wird diese Art der Abfrage dadurch, das für alle Protokolle
+                        sogenannte N-Gramme berechnet wurden.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">short_text</i>Was sind N-Gramme?</div>
+                <div class="collapsible-body">
+                    <p>Für die Berechnung von N-Grammen wird ein Text in einzelne
+                        Fragmente zerlegt, die dann in ihrer Häufigkeit gezählt werden können.
+                        N gibt hierbei die Länge der einzelen Fragmente an.
+                        Ist z.B. der Satz "to be or not to be that is the question."
+                        gegeben, kann für diesen die dazugehörigen 1-Gramme berechnet werden.
+                        Diese wären dann: "to, be, or, not, to, be, that, is, the, question".
+                        Nun kann die Häufigkeit der einzelnen Wörter gezählt werden.
+                        Somit kommen die Wörter "to" und "be" zweimal vor und die restlichen
+                        Wörter jeweils einmal.</p>
+                    <p>Diese Art der Berechnung kann dann auch für 2-Gramme durchgführt
+                        werden. Der Satz würde dafür in folgende Fragemente zerlegt werden:
+                        "To be, be or, or not, not to, to be, be that, that is, is the, the question".
+                        Nun kann die Häufigkeit von zwei aufeinander folgenden Wörtern ermittelt werden.
+                        Die Phrase "to be" kommt innerhalb des Satzes somit zweimal
+                        und alle anderen nur einmal vor.</p>
+                    <p>Dieser Prozess kann weitere Male wiederholt werden z.B. für 3-, 4- oder 5-Gramme.</p>
+                    <p>Diese Art der Berechnung wurde für alle Protokolle der Bundestagssitzungen
+                        seit 1949 bis 2017 durchgeführt, um die Häufigkeiten verschiedener
+                        Begriffe bzw. Phrasen pro Jahr darstellen zu können.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">filter_2</i>Verschiedene Korpora</div>
+                <div class="collapsible-body">
+                    <p>Mit der Option "Korpus" kann zwischen zwei verschiedenen
+                        Korpora gewechselt werden, an die die Suchanfrage gestellt wird.</p>
+                    <p>Bei der Korpusauswahl "Lemmatisiert ohne Stoppwörter" werden
+                        N-Gramme abgefragt, die auf Grundlage der lemmatisierten Protokolle
+                        ohne Stopwörter berechnet wurden. Das bedeutet, dass alle Wörter der
+                        Protokolle auf ihre Grundform zurückgeführt und häufige
+                        Wörter wie "ist" oder "ein" entfernt wurden. Aus dem Satz
+                        "Guten Morgen, liebe Kolleginnen und Kollegen! Ich begrüße Sie alle herzlich."
+                        wird so die Zeichenfolge
+                        "Guten Morgen lieb Kollegin Kollege ich begrüßen ich herzlich"
+                        N-Gramme die für die beiden Sätze berechnet werden unterscheiden sich somit
+                        erheblich.</p>
+                    <p> Der Korpus "Nicht lemmatisiert mit Stoppwörtern" lässt den
+                        Satz unberührt.</p>
+                    <p>Beide Korpora eignen sich für verschiedene Suchanfragen.
+                        Möchte eher die Häufigkeit von zusammengefassten Begriffen ermittelt
+                        werden, kann der Korpus "Lemmatisiert ohne Stoppwörter" verwendet
+                        werden. <br />
+                        Werden jedoch eher ganze Phrasen wie "Kampf gegen den Terror"
+                        gesucht, sollte der Korpus "Nicht lemmatisiert mit Stoppwörtern"
+                        vewrwendet werden.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">close</i>Grenzen der Suchanfrage</div>
+                <div class="collapsible-body">
+                    <p>Für den Korpus "Lemmatisiert ohne Stoppwörter" können 1-
+                        bis 5-Gramme abgefragt werden.</p>
+                    <p>Der Korpus "Nicht lemmatisiert mit Stoppwörtern" ist auf
+                        eine Abfrage von 1- bis 4-Grammen begrenzt.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">access_time</i>Suchgeschwindigkeit</div>
+                <div class="collapsible-body">
+                    <p>Die Suchanfragen für mehrere 1-Gramme ist sehr schnell.
+                        Werden komplexere 2-, 3-, 4- oder 5-Gramme abgefragt, ist mit
+                        einer Bearbeitungszeit von einigen Sekunden zu rechnen.</p>
+                </div>
+            </li>
+            <li>
+                <div class="collapsible-header"><i class="material-icons blue-grey-text darken-4">poll</i>Interpretation der Daten</div>
+                <div class="collapsible-body">
+                    <p>Aus den Ergebnissen einer Suchanfrage sollten keine vorschnellen
+                        Kausalitäten abgeleitet werden. Die verschiedenen Häufigkeiten sollten
+                        immer im Kontext ihrer Zeit und politscher Ereignisse gesehen werden.</p>
                </div>
            </li>
        </ul>
@@ -91,7 +190,7 @@ query. This creates the ngram viewer per year. -->
    <div class="col s12 m12 l8">
        <div class="card">
            <div class="card-content">
-                <span class="card-title">Graph</span>
+                <span class="card-title">Häufigkeit der gesuchten N-Gramme pro Jahr von 1949 bis 2017</span>
                {{ line_chart.as_html}}
            </div>
        </div>