{% extends "nopaque.html.j2" %} {% set full_width = True %} {% set roadmap = False %} {% block page_content %}
Eingabe

Textdaten in Form von Bildern, Fotos, Scans…

burst_modeSetup files

Häufig liegen Datenbestände in verschiedenen Formaten und verstreut vor. Da eine Verarbeitung via nopaque ein einheitliches Datenformat vorsieht, wird dieser Dienst zur Verfügung gestellt, um etwaig anfallende Konvertierungsprozesse durchzuführen.

Umgesetzt mit ImageMagick
Ausgabe

Aus den Eingaben zusammengesetzte Multipage-TIFF-Dateien.

Eingabe

Textdaten in Form von Multipage-TIFF- oder PDF-Dateien.

find_in_pageOptical Character Recognition

Durch optische Analysemethoden mit werden aus Bilddaten, wie Fotos oder Scans, Textdaten erzeugt. Erst dieser Vorverarbeitungsschritt ermöglicht eine weitere computergestützte Verarbeitung von Dokumenten.

Umgesetzt mit Tesseract OCR
Ausgabe

Textdateien, PDF-Dateien und TEI P5 konformen XML-Dateien.

Eingabe

Ausschließlich Textdateien.

format_textdirection_l_to_rNatural Language Processing

Mit Hilfe computergestützter linguistischer Datenverarbeitungsmethoden (Tokenisierung, Lemmatisierung, Part-of-speech-Tagging und Eigennamenerkennung) werden Textdateien mit weiteren Informationen angereichert.

Umgesetzt mit spaCy
Ausgabe

Korpus Dateien im verticalized text-Format (XML-Dialekt).

Eingabe

Korpus Dateien und Metadaten entsprechend des BibTeX-Schemas.

searchCorpus Analysis

Mittels CQP Query Language als Abfragesprache können komplexe Suchanfragen unter Zu­hil­fe­nah­me von Metadaten und NLP-Auszeichnungen ausgeführt werden. Ergebnisse können als Text oder in abstrakter Darstellung ausgewertet werden.

Umgesetzt mit IMS Open Corpus Workbench
Ausgabe

Export der Ergebnisse in CSV, Excel, JSON und HTML.

{% endblock %}