diff --git a/.gitignore b/.gitignore old mode 100644 new mode 100755 diff --git a/README.md b/README.md old mode 100644 new mode 100755 diff --git a/app/Dockerfile b/app/Dockerfile old mode 100644 new mode 100755 diff --git a/app/Pipfile b/app/Pipfile old mode 100644 new mode 100755 diff --git a/app/Pipfile.lock b/app/Pipfile.lock old mode 100644 new mode 100755 diff --git a/app/blog/migrations/__init__.py b/app/blog/migrations/__init__.py old mode 100644 new mode 100755 diff --git a/app/blog/static/blog/images/one_protocol.png b/app/blog/static/blog/images/one_protocol.png old mode 100644 new mode 100755 diff --git a/app/blog/static/blog/images/one_speech.png b/app/blog/static/blog/images/one_speech.png old mode 100644 new mode 100755 diff --git a/app/blog/static/blog/images/slide_ngram_viewer.png b/app/blog/static/blog/images/slide_ngram_viewer.png old mode 100644 new mode 100755 diff --git a/app/blog/static/blog/images/slider_profile.png b/app/blog/static/blog/images/slider_profile.png old mode 100644 new mode 100755 diff --git a/app/ngram_viewer/forms.py b/app/ngram_viewer/forms.py index 3aa552b..d06d9f7 100755 --- a/app/ngram_viewer/forms.py +++ b/app/ngram_viewer/forms.py @@ -6,21 +6,22 @@ class NgramForm(forms.Form): Describes and configures the input html form for the Ngram Viewer per year. """ CORPUS_CHOICE = [('lm_ns_year', 'Lemmatisiert ohne Stoppwörter'), - ('tk_ws_year', 'Nicht lemmatisiert mit Stoppwörtern'),] - query = forms.CharField(label="Suche Ngramme", max_length="200") + ('tk_ws_year', 'Nicht lemmatisiert mit Stoppwörtern'), ] + query = forms.CharField(label="Suche N-Gramme", max_length="200") case_sensitive = forms.BooleanField(label="case-sensitive", required=False) search_plus = forms.BooleanField(label="search-plus", required=False) ignore_missing = forms.BooleanField(label="fill-zeros", required=False) corpus_choice = forms.ChoiceField(label="Wählen Sie einen Corpus", choices=CORPUS_CHOICE) + class NgramFormSpeaker(forms.Form): """ Describes and configures the input html form for the Ngram Viewer per speaker. """ CORPUS_CHOICE = [('lm_ns_speaker', 'Lemmatisiert ohne Stoppwörter'), - ('tk_ws_speaker', 'Nicht lemmatisiert mit Stoppwörtern'),] - query = forms.CharField(label="Suche Ngramm", max_length="200") + ('tk_ws_speaker', 'Nicht lemmatisiert mit Stoppwörtern'), ] + query = forms.CharField(label="Suche N-Gramm", max_length="200") case_sensitive = forms.BooleanField(label="case-sensitive", required=False) search_plus = forms.BooleanField(label="search-plus", required=False) ignore_missing = forms.BooleanField(label="fill-zeros", required=False) diff --git a/app/ngram_viewer/migrations/__init__.py b/app/ngram_viewer/migrations/__init__.py old mode 100644 new mode 100755 diff --git a/app/ngram_viewer/templates/ngram_viewer/ngram_viewer_speaker.html b/app/ngram_viewer/templates/ngram_viewer/ngram_viewer_speaker.html index 13f1b98..e1497ba 100755 --- a/app/ngram_viewer/templates/ngram_viewer/ngram_viewer_speaker.html +++ b/app/ngram_viewer/templates/ngram_viewer/ngram_viewer_speaker.html @@ -65,7 +65,7 @@ query. This creates the ngram viewer per speaker. -->
Mit diesem Tool können alle Protokolle von 1949 bis 2017 + nach einem Begriff durchsucht werden. Für diesen + wird pro MdB dargestellt wie häufig dieses in seinen Reden + und Redebeiträgen den gesuchten Begriff verwendet hat. +
+Der Begriff kann eine Phrase mit der Länge von + ein bis fünf Wörter sein. + Eine weitere Suchanfrage wäre z.B. "Steuer erhöhen"
+Eine Suchanfrage ist ein einzelner Begriff bzw. einzelne Phrase.
+Die beispielhafte Suchanfrage "Ausländer" + fragt somit die Häufigkeit des Begriffs ab. + Es kann nur ein BEgriff gleichzeitig gesucht werden.
+Eine weitere Suchanfrage wäre z.B. "Steuerflucht"
+Es können nicht nur einzelne Wörter, sondern je nach Korpus + Phrasen mit einer Länge von bis zu fünf Wörtern abgefragt werden. + Eine beispielhafte Suchanfrage wäre z.B. "Steuer erhöhen". +
+Möglich wird diese Art der Abfrage dadurch, das für alle Protokolle + sogenannte N-Gramme berechnet wurden.
+Für die Berechnung von N-Grammen wird ein Text in einzelne + Fragmente zerlegt, die dann in ihrer Häufigkeit gezählt werden können. + N gibt hierbei die Länge der einzelen Fragmente an. + Ist z.B. der Satz "to be or not to be that is the question." + gegeben, kann für diesen die dazugehörigen 1-Gramme berechnet werden. + Diese wären dann: "to, be, or, not, to, be, that, is, the, question". + Nun kann die Häufigkeit der einzelnen Wörter gezählt werden. + Somit kommen die Wörter "to" und "be" zweimal vor und die restlichen + Wörter jeweils einmal.
+Diese Art der Berechnung kann dann auch für 2-Gramme durchgführt + werden. Der Satz würde dafür in folgende Fragemente zerlegt werden: + "To be, be or, or not, not to, to be, be that, that is, is the, the question". + Nun kann die Häufigkeit von zwei aufeinander folgenden Wörtern ermittelt werden. + Die Phrase "to be" kommt innerhalb des Satzes somit zweimal + und alle anderen nur einmal vor.
+Dieser Prozess kann weitere Male wiederholt werden z.B. für 3-, 4- oder 5-Gramme.
+Diese Art der Berechnung wurde für alle Protokolle der Bundestagssitzungen + seit 1949 bis 2017 durchgeführt, um die Häufigkeiten verschiedener + Begriffe bzw. Phrasen pro Jahr darstellen zu können.
+Mit der Option "Korpus" kann zwischen zwei verschiedenen + Korpora gewechselt werden, an die die Suchanfrage gestellt wird.
+Bei der Korpusauswahl "Lemmatisiert ohne Stoppwörter" werden + N-Gramme abgefragt, die auf Grundlage der lemmatisierten Protokolle + ohne Stopwörter berechnet wurden. Das bedeutet, dass alle Wörter der + Protokolle auf ihre Grundform zurückgeführt und häufige + Wörter wie "ist" oder "ein" entfernt wurden. Aus dem Satz + "Guten Morgen, liebe Kolleginnen und Kollegen! Ich begrüße Sie alle herzlich." + wird so die Zeichenfolge + "Guten Morgen lieb Kollegin Kollege ich begrüßen ich herzlich" + N-Gramme die für die beiden Sätze berechnet werden unterscheiden sich somit + erheblich.
+Der Korpus "Nicht lemmatisiert mit Stoppwörtern" lässt den + Satz unberührt.
+Beide Korpora eignen sich für verschiedene Suchanfragen.
+ Möchte eher die Häufigkeit von zusammengefassten Begriffen ermittelt
+ werden, kann der Korpus "Lemmatisiert ohne Stoppwörter" verwendet
+ werden.
+ Werden jedoch eher ganze Phrasen wie "Kampf gegen den Terror"
+ gesucht, sollte der Korpus "Nicht lemmatisiert mit Stoppwörtern"
+ vewrwendet werden.
Für den Korpus "Lemmatisiert ohne Stoppwörter" können 1- + bis 5-Gramme abgefragt werden.
+Der Korpus "Nicht lemmatisiert mit Stoppwörtern" ist auf + eine Abfrage von 1- bis 4-Grammen begrenzt.
+Die Suchanfragen für 1-Gramme ist sehr schnell. + Werden komplexere 2-, 3-, 4- oder 5-Gramme abgefragt, ist mit + einer Bearbeitungszeit von einigen Sekunden zu rechnen.
+Aus den Ergebnissen einer Suchanfrage sollten keine vorschnellen + Kausalitäten abgeleitet werden. Die verschiedenen Häufigkeiten sollten + immer im Kontext ihrer Zeit und politscher Ereignisse gesehen werden.
Mit diesem Tool können alle Protokolle von 1949 bis 2017 + nach verschiedenen Begriffen durchsucht werden. Für jeden + Begriff wird pro Jahr dargestellt wie häufig dieser von den + Rednern und MdBs im deutschen Bundestag in deren + Reden und Redebeiträge insgesamt verwendet wurde.
+Begriffe bzw. Phrasen können ein bis fünf Wörter lang sein. + Eine weitere Suchanfrage wäre z.B. "Steuer erhöhen, Steuer senken, schwarze Null"
+Eine Suchanfrage ist eine durch Kommata getrennte + Zeichenkette. Durch die Kommata werden verschiedene Begriffe + voneinander getrennt und einzeln abgefragt.
+Die beispielhafte Suchanfrage "Kroatien, Krieg, Asyl" + fragt somit die Häufigkeit der drei verschiedenen Wörter ab. + Es können beliebig viele Begriffe aneinander gereit werden.
+Eine weitere Suchanfrage wäre z.B. "Kroatien, Krieg, Asyl, + Syrien, Europa"
+Es können nicht nur einzelne Wörter, sondern je nach Korpus + Phrasen mit einer Länge von bis zu fünf Wörtern abgefragt werden. + Eine beispielhafte Suchanfrage wäre z.B. "Steuer erhöhen, Steuer senken, schwarze Null". + Es können gleichzeitig Phrasen verschiedener Länge abgefragt werden. + Ein Beispiel hierfür ist "Steuer erhöhen, Steuer senken, schwarze Null, Steuerbetrug". +
+Möglich wird diese Art der Abfrage dadurch, das für alle Protokolle + sogenannte N-Gramme berechnet wurden.
+Für die Berechnung von N-Grammen wird ein Text in einzelne + Fragmente zerlegt, die dann in ihrer Häufigkeit gezählt werden können. + N gibt hierbei die Länge der einzelen Fragmente an. + Ist z.B. der Satz "to be or not to be that is the question." + gegeben, kann für diesen die dazugehörigen 1-Gramme berechnet werden. + Diese wären dann: "to, be, or, not, to, be, that, is, the, question". + Nun kann die Häufigkeit der einzelnen Wörter gezählt werden. + Somit kommen die Wörter "to" und "be" zweimal vor und die restlichen + Wörter jeweils einmal.
+Diese Art der Berechnung kann dann auch für 2-Gramme durchgführt + werden. Der Satz würde dafür in folgende Fragemente zerlegt werden: + "To be, be or, or not, not to, to be, be that, that is, is the, the question". + Nun kann die Häufigkeit von zwei aufeinander folgenden Wörtern ermittelt werden. + Die Phrase "to be" kommt innerhalb des Satzes somit zweimal + und alle anderen nur einmal vor.
+Dieser Prozess kann weitere Male wiederholt werden z.B. für 3-, 4- oder 5-Gramme.
+Diese Art der Berechnung wurde für alle Protokolle der Bundestagssitzungen + seit 1949 bis 2017 durchgeführt, um die Häufigkeiten verschiedener + Begriffe bzw. Phrasen pro Jahr darstellen zu können.
+Mit der Option "Korpus" kann zwischen zwei verschiedenen + Korpora gewechselt werden, an die die Suchanfrage gestellt wird.
+Bei der Korpusauswahl "Lemmatisiert ohne Stoppwörter" werden + N-Gramme abgefragt, die auf Grundlage der lemmatisierten Protokolle + ohne Stopwörter berechnet wurden. Das bedeutet, dass alle Wörter der + Protokolle auf ihre Grundform zurückgeführt und häufige + Wörter wie "ist" oder "ein" entfernt wurden. Aus dem Satz + "Guten Morgen, liebe Kolleginnen und Kollegen! Ich begrüße Sie alle herzlich." + wird so die Zeichenfolge + "Guten Morgen lieb Kollegin Kollege ich begrüßen ich herzlich" + N-Gramme die für die beiden Sätze berechnet werden unterscheiden sich somit + erheblich.
+Der Korpus "Nicht lemmatisiert mit Stoppwörtern" lässt den + Satz unberührt.
+Beide Korpora eignen sich für verschiedene Suchanfragen.
+ Möchte eher die Häufigkeit von zusammengefassten Begriffen ermittelt
+ werden, kann der Korpus "Lemmatisiert ohne Stoppwörter" verwendet
+ werden.
+ Werden jedoch eher ganze Phrasen wie "Kampf gegen den Terror"
+ gesucht, sollte der Korpus "Nicht lemmatisiert mit Stoppwörtern"
+ vewrwendet werden.
Für den Korpus "Lemmatisiert ohne Stoppwörter" können 1- + bis 5-Gramme abgefragt werden.
+Der Korpus "Nicht lemmatisiert mit Stoppwörtern" ist auf + eine Abfrage von 1- bis 4-Grammen begrenzt.
+Die Suchanfragen für mehrere 1-Gramme ist sehr schnell. + Werden komplexere 2-, 3-, 4- oder 5-Gramme abgefragt, ist mit + einer Bearbeitungszeit von einigen Sekunden zu rechnen.
+Aus den Ergebnissen einer Suchanfrage sollten keine vorschnellen + Kausalitäten abgeleitet werden. Die verschiedenen Häufigkeiten sollten + immer im Kontext ihrer Zeit und politscher Ereignisse gesehen werden.