Mit Hilfe computergestützter linguistischer Datenverarbeitungsmethoden können Textdateien mit weiteren Informationen angereichert werden. Auf dieser Plattform werden derzeit die im folgenden aufgeführten Textverarbeitungsroutinen in automatisierter Form zur Verfügung gestellt.
Aufteilung eines Textes in Sätze und Wörter. Dies ist zur weiteren Verarbeitung notwendig.
Reduktion der Flexionsformen eines Wortes auf dessen Grundform.
Kontext- und definitionsbezogene Zuordnung von Wörtern und Satzzeichen zu Wortarten.
Identifikation von Wörtern, die eine Entität beschreiben, wie Firmen- und Personennamen.
Die Ausgabe erfolgt in Form einer verticalized text Datei (Dateiendung: .vrt). In diesem Format kann der Text einfach in Auswertungsprogramme, wie zum Beispiel der IMS Open Corpus Workbench, eingefügt werden.