Prediction of spelling errors in freely-written texts of German primary school children

  • Learning the correct spelling of words is an important part of the first school years. The goal of this thesis is to automatically predict spelling errors in texts written by German primary school children. For this purpose, corpus linguistic methods are combined with natural language processing and machine learning. Based on the Litkey Corpus, a longitudinal corpus consisting of 1,922 freely written texts by 251 German-speaking children from grades 2-4, random forests are trained to predict when a double consonant error is made on the one hand and when a word is misspelled in general on the other hand. The results show that spelling errors occur so systematically that they are predictable to some degree. The thesis also analyzes which word characteristics in particular lead to a higher error probability and how their influence differs depending on a child's general spelling performance.
  • Die korrekte Schreibung von Wörtern zu lernen ist ein wichtiger Bestandteil der Grundschulzeit. Ziel dieser Dissertation ist, Rechtschreibfehler in Texten von deutschen Grundschulkindern automatisch vorherzusagen. Dazu werden korpuslinguistische Methoden mit natürlicher Sprachverarbeitung und maschinellem Lernen kombiniert. Basierend auf dem Litkey Korpus, einem Längsschnittkorpus bestehend aus 1.922 frei verfassten Texten von 251 deutschsprachigen Grundschulkindern aus den Klassen 2-4, werden Random Forests trainiert, die zum einen vorhersagen, wann ein Doppelkonsonantenfehler gemacht wird und zum anderen, wann allgemein ein Wort falschgeschrieben wird. Die Ergebnisse zeigen, dass Rechtschreibfehler so systematisch auftreten, dass sie zu einem gewissen Grad vorhersagbar sind. Die Arbeit analysiert zudem, welche Worteigenschaften besonders zu einer höheren Fehlerwahrscheinlichkeit führen und wie sich deren Einfluss je nach allgemeiner Rechtschreibleistung eines Kindes unterscheidet.

Download full text files

Export metadata

Statistics

Number of document requests

Additional Services

Share in Twitter Search Google Scholar
Metadaten
Author:Ronja Maria Laarmann-QuanteGND
URN:urn:nbn:de:hbz:294-82662
DOI:https://doi.org/10.13154/294-8266
Referee:Stefanie DipperORCiDGND, Eva BelkeORCiDGND
Document Type:Doctoral Thesis
Language:English
Date of Publication (online):2021/08/06
Date of first Publication:2021/08/06
Publishing Institution:Ruhr-Universität Bochum, Universitätsbibliothek
Granting Institution:Ruhr-Universität Bochum, Fakultät für Philologie
Date of final exam:2020/12/16
Creating Corporation:Fakultät für Philologie
GND-Keyword:Maschinelles Lernen; Rechtschreibfehler; Grundschule; Korpus (Linguistik); Geminata
Dewey Decimal Classification:Sprache / Sprache, Linguistik
faculties:Fakultät für Philologie
Licence (German):License LogoKeine Creative Commons Lizenz - es gelten der Veröffentlichungsvertrag und das deutsche Urheberrecht