Abstract

Die rasanten Entwicklungen der letzten Jahre in den Bereichen Speicherkapazitat, Rechenleistung und komplexen Algorithmen werden von Wissenschaftlern nahezu aller Disziplinen genutzt, Informationen aus ihren wissenschaftlichen Daten zu gewinnen. Auch den Digital Humanities, die computergestutzte Methoden in geisteswissenschaftlichen Disziplinen anwenden, stehen vermehrt handschriftliche historische Dokumente zur Analyse und auf diese Weise zum Erkenntnisgewinn zur Verfugung. Durch eine Dokumentlayoutanalyse werden die physischen Regionen in Bildern des Dokuments identifiziert und zur Bestimmung praziser Informationen uber diese Regionen verwendet. Traditionelle Methoden sind jedoch auf eine eingeschrankte Menge von Dokumentstrukturen festgelegt, produzieren proprietare Datenformate und bieten keine Moglichkeit, die identifizierten physischen Regionen zu erkunden und Informationen abzuleiten. Gegenstand der vorliegenden Dissertation ist daher die Erforschung und Entwicklung einer generischen Methode, die auf eine Vielzahl von Dokumenten angewendet werden kann, reproduzierbare und deterministische Ergebnisse erzeugt und geisteswissenschaftlichen Forschen die Datenerkundung und das Ableiten wertvoller Erkenntnisse ermoglicht. Die erste Komponente der Methode ist ein generischer und vollautomatischer Ansatz zur Identifizierung physischer Regionen wie Text- und Bildregionen auf Dokumentenbildern sowie zur Extraktion vielfaltiger Layoutmerkmale der Regionen. Die Ergebnisse sind auf Grund der Charakteristik des Ansatzes sowohl deterministisch als auch reproduzierbar und im Standformat der Dokumentenreprasentation gespeichert, das Informationen uber die Eigenschaften des Dokumentenbildes, die Layoutstruktur sowie den Seiteninhalt bereitstellt. Die Evaluation an Hand von Ground Truth Daten belegt qualitative Vergleichbarkeit von traditionellen Methoden mit dem vorgestellten Ansatz. Die zweite Komponente ist die Anwendung der Layoutanalyse und Merkmalsextraktion auf den grosen und heterogenen Datensatz des „Virtuellen Skriptoriums St. Matthias“ mit 150.000 handgeschriebenen Manuskriptseiten. Die Anwendung bei gedruckten, spanischen Magazinen, PDF Dokumenten, Aristoteles Dokumenten, dem Parzival sowie Dokumenten der Sankt Gallen Datenbank zeigt die Ubertragbarkeit und Allgemeingultigkeit des Ansatzes. Die dritte Komponente der Methode ist eine generische Designstrategie, die Entwicklern die effiziente Auswahl und Kombination von Techniken der Informationsvisualisierung abgestimmt auf den jeweiligen Anwendungsfall ermoglicht. In dieser Arbeit wird die Strategie verwendet, passende Techniken der Informationsvisualisierung fur multidimensionale Textdokumentdaten abzuleiten. Die vierte Komponente ist das entwickelte Informationsvisualisierungsdesign, dessen vielfaltige Elemente aufeinander abgestimmt sind und sich gegenseitig beeinflussen. Diese Komponente ermoglicht esWissenschaftlern, ihre Daten zu erkunden und wertvolle Informationen abzuleiten, die auserliche Struktur zahlreicher Dokumente auf einen Blick zu erfassen sowie Korrelationen, Ausreiser, Cluster undWertebereiche zu bestimmen. Die qualitative Evaluierung und die Ruckmeldungen der geisteswissenschaftlichen Forscher belegen, dass das Visualisierungsdesign die Untersuchung heterogener Informationen der handschriftlichen historischen Dokumente ermoglicht und wertvolle Informationen fur eine prazisere physische Layoutanalyse bereitstellen kann. Zusammengefasst ermoglicht es diese Dissertation Fachwissenschaftlern aus dem Gebiet der Digital Humanities, die identifizierten physischen Regionen und Informationen zu erforschen, neuartige Erkenntnisse abzuleiten und bisher verborgene Zusammenhange in ihren Daten zu entdecken.

Full Text
Paper version not known

Talk to us

Join us for a 30 min session where you can share your feedback and ask us any queries you have

Schedule a call

Disclaimer: All third-party content on this website/platform is and will remain the property of their respective owners and is provided on "as is" basis without any warranties, express or implied. Use of third-party content does not indicate any affiliation, sponsorship with or endorsement by them. Any references to third-party content is to identify the corresponding services and shall be considered fair use under The CopyrightLaw.