The challenges of supervised machine learning in sociological applications

Németh Renáta

doi:10.18392/metsz/2021/3/3

Abstract

The sociological applications of supervised machine learning, already well proven in industrial/business applications, raise specific questions. The reason for this specificity is that in these applications, the algorithm is tasked with learning complex concepts (e.g. whether a tweet contains hate speech). Supervised learning consists of learning to classify previously annotated (hatespeech/non-hate speech) texts by the algorithm, looking for characteristic text patterns. Thequestions that arise are: how to prepare annotation? How can a hermeneutic challenge such ashate speech recognition be performed by annotators? Are routinely applied, detailed annotationguidelines helpful? The article also discusses how large companies perform coding on crowdsourcing platforms, and describes AI bias, which in this case means that annotators themselvesintroduce bias into the data. I illustrate these issues with our own research experiences.

Highlights

The sociological applications of supervised machine learning, already well proven in industrial/ business applications, raise specific questions
The challenges of supervised machine learning in sociological applications
the algorithm is tasked with learning complex concepts

Summary

Társadalomkutatóknak szóló kiváló összefoglaló a módszerről

A felügyelt tanulás lényege, hogy előre bekódolt szövegek címkézését tanulja meg az algoritmus, jellegzetes szövegmintázatokat keresve. A felügyelt és felügyelet nélküli tanulás közötti különbség azon alapszik, hogy már létező elmélet/meglevő háttérismeret empirikus megnyilvánulásait keressük (felügyelt tanulás, ahol a „felügyelet” maga a háttérelmélet), vagy induktív módon egy még nem vizsgált téma feltárása a cél (felügyelet nélküli tanulás). Az aktív tanulás esetén nem egy fix tanuló-halmazunk van, hanem az algoritmus maga kéri menet közben konkrét, még címkézetlen, de a tanulásban fontosnak tűnő szövegek címkézését, vagy a transzfer tanulás, amikor a címkézett adatoktól eltérő besorolási problémát kell a tanuló algoritmusnak megoldania (Eisenstein 2019). Érdemes legalább az adatbázis egy részét párhuzamosan annotálni, azaz két vagy több annotátorral egymástól függetlenül besoroltatni, hogy az annotátorok közötti egyezés kiszámítható legyen. Sok projektben a szövegek több címkét is kapnak, amelyek aztán összesítve egy „konszenzusos” címkévé állnak ös sze.

Példaként lásd

A Mesterséges Intelligencia torzítás és az annotálás