SoMaJo: State-of-the-art tokenization for German web and social media texts

Beitrag bei einer Tagung
(Originalarbeit)


Details zur Publikation

Autorinnen und Autoren: Proisl T, Uhrig P
Herausgeber: Cook P, Evert S, Schäfer R, Stemle E
Verlag: Association for Computational Linguistics (ACL)
Verlagsort: Berlin
Jahr der Veröffentlichung: 2016
Tagungsband: Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task
Seitenbereich: 57-62
Sprache: Englisch


Abstract


In this paper we describe SoMaJo, a rule-based tokenizer for German web and social media texts that was the best-performing system in the EmpiriST 2015 shared task with an average F1-score of 99.57. We give an overview of the system and the phenom ena its rules cover, as well as a detailed error analysis. The tokenizer is available as free software.



FAU-Autorinnen und Autoren / FAU-Herausgeberinnen und Herausgeber

Proisl, Thomas
Lehrstuhl für Korpus- und Computerlinguistik
Uhrig, Peter Dr.
Lehrstuhl für Anglistik, insbesondere Linguistik


Forschungsbereiche

Korpuswerkzeuge und sprachtechnologische Anwendungen
Lehrstuhl für Korpus- und Computerlinguistik


Zitierweisen

APA:
Proisl, T., & Uhrig, P. (2016). SoMaJo: State-of-the-art tokenization for German web and social media texts. In Cook P, Evert S, Schäfer R, Stemle E (Eds.), Proceedings of the 10th Web as Corpus Workshop (WAC-X) and the EmpiriST Shared Task (pp. 57-62). Berlin, DE: Berlin: Association for Computational Linguistics (ACL).

MLA:
Proisl, Thomas, and Peter Uhrig. "SoMaJo: State-of-the-art tokenization for German web and social media texts." Proceedings of the 10th Web as Corpus Workshop (WAC-X), Berlin Ed. Cook P, Evert S, Schäfer R, Stemle E, Berlin: Association for Computational Linguistics (ACL), 2016. 57-62.

BibTeX: 

Zuletzt aktualisiert 2018-20-10 um 05:00