Springe zum Inhalt

Publikation

Automating survey coding for occupation

Beschreibung

"In vielen Umfragen ist es üblich den Beruf mit offenen Fragen zu erheben. Nach der Befragung müssen diese Texte in eine Klassifikation mit hunderten Kategorien und tausenden Berufen eingeordnet (kodiert) werden. Diese Aufgabe ist nicht nur zeitaufwändig und daher teuer, sondern auch fehleranfällig. Dieser Bericht stellt internationale Forschung zur Berufskodierung zusammen, wobei die automatische Berufskodierung besondere Beachtung findet.<br> Eine weitverbreitete Methode zur automatischen Kodierung besteht darin, in einem Wörterbuch den korrekten Code nachzuschlagen. Im Gegensatz dazu sind datenbasierte Methoden hier hauptsächlich von Interesse. Dabei werden bereits kodierte Antworten verwendet um damit die Codes für neue Antworten vorherzusagen. Vier verschiedene Kodiermethoden werden an zwei Datensätzen getestet: (1) Regelbasierte Kodierung unter Verwendung eines Wörterbuchs, (2) datenbasiertes Naive Bayes, welches zur Kodierung von Antworten mit mehreren Wörtern gedacht ist, (3) datenbasiertes Bayesian Categorical verbessert die Kodierqualität, wenn nur wenige Antworten bereits zuvor kodiert wurden, und (4) Combined Methods (Boosting) verknüpft die Vorhersagen aus den drei zuvor genannten Methoden.<br> Mit dem vorgestellten Bayesian Categorical Modell können 38% der Antworten bei einer Fehlerrate von 3% vollautomatisch kodiert werden. Bei allen übrigen Antworten braucht es den menschlichen Verstand um den korrekten Code bestimmen. Ein Computerprogramm kann die Entscheidung des Menschen unterstützen, indem es mögliche Berufscodes vorschlägt. Der Prototyp einer solchen Software wird vorgestellt. Dieses Programm könnte hilfreich für 74% aller Antworten sein, nämlich dann wenn der korrekte Code unter den fünf besten Vorschlägen enthalten ist. Die Trainingsdaten, die hier zur Vorhersage verwendet wurden, waren mit 32882 kodierten Antworten vergleichsweise klein. Die oben genannten Kennziffern lassen sich vermutlich noch verbessern, wenn zusätzliche Trainingsdaten vorhanden wären." (Autorenreferat, IAB-Doku)

Zitationshinweis

Schierholz, Malte (2014): Automating survey coding for occupation. (FDZ-Methodenreport 10/2014 (en)), Nürnberg, 65 S.

Bezugsmöglichkeiten

kostenfreier Zugang