{% extends "nopaque.html.j2" %} {% set full_width = False %} {% set roadmap = False %} {% block page_content %}
Häufig liegen Datenbestände in verschiedenen Formaten und verstreut vor. Da eine Verarbeitung via nopaque ein einheitliches Datenformat vorsieht, wird dieser Dienst zur Verfügung gestellt, um etwaig anfallende Konvertierungsprozesse durchzuführen.
Umgesetzt mit ImageMagick
Durch optische Analysemethoden mit werden aus Bilddaten, wie Fotos
oder Scans, Textdaten erzeugt. Erst dieser Vorverarbeitungsschritt
ermöglicht eine weitere computergestützte Verarbeitung von Dokumenten.
Umgesetzt mit Tesseract OCR
Mit Hilfe computergestützter linguistischer Datenverarbeitungsmethoden (Tokenisierung, Lemmatisierung, Part-of-speech-Tagging und Eigennamenerkennung) werden Textdateien mit weiteren Informationen angereichert.
Umgesetzt mit spaCy
Mittels CQP Query Language als Abfragesprache können komplexe Suchanfragen unter Zuhilfenahme von Metadaten und NLP-Auszeichnungen ausgeführt werden. Ergebnisse können als Text oder in abstrakter Darstellung ausgewertet werden.
Umgesetzt mit IMS Open Corpus Workbench