{% extends "nopaque.html.j2" %} {% block page_content %}
burst_modeSetup files

Häufig liegen Digitalisate textueller Foschungsdaten (Bücher, Briefe etc.) in mehreren Dateien und Formaten vor. Nopaque ermöglicht die Konvertierung und Zusammenfassung in ein einheitliches Datenformat, was eine vereinfachte Weiterverarbeitung mit weiteren Services ermöglicht.

File

 




Ausgabe

Nach Eingabeateinamen sortierte Multipage-TIFF-Dateien.

Umgesetzt mit ImageMagick
als Docker Swarm Service




find_in_pageOptical Character Recognition

Durch optische Analysemethoden werden aus Bilddaten, wie Fotos oder Scans, Textdateien erzeugt. Erst dieser Vorverarbeitungsschritt ermöglicht eine weitere computergestützte Verarbeitung von Dokumenten.

File

 




Ausgabe

Textdateien, PDF-Dateien und TEI P5 konforme XML-Dateien.

Pipelineumsetzung mit Tesseract OCR
als Docker Swarm Service




format_textdirection_l_to_rNatural Language Processing

Mit Hilfe computergestützter linguistischer Datenverarbeitungsmethoden (Tokenisierung, Lemmatisierung, Part-of-speech-Tagging und Eigennamenerkennung) werden Textdateien mit weiteren Informationen ausgezeichnet.

File

 




Ausgabe

Korpusdateien im verticalized text-Format (XML-Dialekt, Ähnelt CoNLL).

Pipelineumsetzung mit spaCy
als Docker Swarm Service




searchCorpus Analysis

Mittels CQP Query Language können komplexe Suchanfragen unter Zuhilfenahme von Metadaten und NLP-Auszeichnungen an eigens erstellte Korpora gestellt werden. Ergebnisse können als Text oder in abstrakter Darstellung ausgewertet werden.

search
subdirectory_arrow_right

The | DET quick | ADJ brown | ADJ fox | PROPN jumps | VERB over | ADP the | DET lazy | ADJ dog | NOUN . | PUNCT




Ausgabe

Export der Ergebnisse in JSON. (Zunkünftig angedacht: CSV, Excel und HTML)

Umgesetzt mit IMS Open Corpus Workbench
als lokaler Docker-Container

 

 

 

 

{% endblock %}