{% extends "nopaque.html.j2" %} {% set full_width = False %} {% set roadmap = False %} {% block page_content %}
Häufig liegen Datenbestände in verschiedenen Formaten und verstreut vor. Da eine Verarbeitung via nopaque ein einheitliches Datenformat vorsieht, wird dieser Dienst zur Verfügung gestellt, um etwaig anfallende Konvertierungsprozesse durchzuführen.
Nach Eingabeateinamen sortierte Multipage-TIFF-Dateien.
Umgesetzt mit ImageMagick
als Docker Swarm Service
Durch optische Analysemethoden werden aus Bilddaten, wie Fotos oder Scans, Textdaten erzeugt. Erst dieser Vorverarbeitungsschritt ermöglicht eine weitere computergestützte Verarbeitung von Dokumenten.
Textdateien, PDF-Dateien und TEI P5 konformen XML-Dateien.
Pipelineumsetzung mit Tesseract OCR
als Docker Swarm Service
Mit Hilfe computergestützter linguistischer Datenverarbeitungsmethoden (Tokenisierung, Lemmatisierung, Part-of-speech-Tagging und Eigennamenerkennung) werden Textdateien mit weiteren Informationen angereichert.
Korpusdateien im verticalized text-Format (XML-Dialekt).
Pipelineumsetzung mit spaCy
als Docker Swarm Service
Mittels CQP Query Language als Abfragesprache können komplexe Suchanfragen unter Zuhilfenahme von Metadaten und NLP-Auszeichnungen ausgeführt werden. Ergebnisse können als Text oder in abstrakter Darstellung ausgewertet werden.
subdirectory_arrow_right The quick brown fox jumps over the lazy dog .
Umgesetzt mit IMS Open Corpus Workbench
Export der Ergebnisse in CSV, Excel, JSON und HTML.
Umgesetzt mit IMS Open Corpus Workbench
als Docker Container mit Socketverbindung