Project

Back to overview

Mining Goodreads: a text similarity-based approach to measure reader absorption

English title Mining Goodreads: a text similarity-based approach to measure reader absorption
Applicant Kuijpers Moniek
Number 183194
Funding scheme Digital Lives
Research institution Digital Humanities Lab Philosophisch-Historische Fakultät Universität Basel
Institution of higher education University of Basel - BS
Main discipline Applied linguistics
Start/End 01.12.2018 - 30.11.2020
Approved amount 233'054.00
Show all

Keywords (8)

Story World Absorption; Online Social Reading; Goodreads; Natural Language Processing; Reader reviews; Text reuse detection; Text Mining; Textual Entailment

Lay Summary (German)

Lead
Millionen von NutzerInnen teilen auf soziale Onlineplattformen wie Goodreads ihre Liebe für das geschriebene Wort. Daher beinhaltet das Lesen im digitalen Zeitalter soziale Komponenten, die weit über die Anforderungen einer realen Lesegruppe oder einer öffentlichen Lesung hinausgehen. Unser exploratives Projekt widmet sich dem Phänomen des sozialen Lesens im Internet anhand von Goodreads-Daten. Hierbei werden wir auch neue Methoden entwickeln, welche für die Untersuchung von solch qualitativen Daten des (sozialen) Lesens und der Textbewertungen im Internet geeignet erscheinen.
Lay summary

Ziele des Forschungsprojekts

Bisher wurden die regelrechten Schätze an Daten, wie sie auf Goodreads zugänglich sind, noch nicht empirisch untersucht. Dies liegt zum Teil darin begründet, dass zunächst neue Methoden entwickelt werden müssen, welche die sinnvolle Datenextraktion von Webseiten überhaupt ermöglichen. Unser Projekt setzt genau hier an. Ziel ist zum einen, anhand der Analyse von Leserbewertungen auf Goodreads mittels Methoden der computergestützten Linguistik und einem Abgleich mit der sogenannten Story World Absorption Scale (SWAS) Goodreads als qualitatives Korpus für die computergestützte Analyse von Lesereaktionen zu untersuchen. Zum anderen zielt das Projekt darauf ab, die SWAS anhand eines Abgleichs mit den auf Goodreads veröffentlichen Bewertungen zu validieren. Außerdem soll die von Leser*innen berichtet „Absorption“ über verschiedene Genres hinweg verglichen werden.

Wissenschaftlicher und gesellschaftlicher Kontext

Die Untersuchung von solchen sozialen Lesephänomenen im Internet erscheint von großer Bedeutung, da diese Plattformen immer beliebter werden und für Leser*innen aller Altersstufen neue Wege und Mittel zur Aneignung von Lese-, Schreib- und Erzählkompetenzen anbieten. Die potentiellen Auswirkungen des Projekts sind vielfältig, da nicht nur neue Korpora für zukünftige Forschung auf diversen Gebieten erschlossen werden, sondern auch Methoden bereitgestellt werden, welche für eine Vielzahl anderer Online-Korpora verwendet und angepasst werden können.

Direct link to Lay Summary Last update: 05.11.2018

Responsible applicant and co-applicants

Employees

Abstract

Over the last decades, with technological advancements, growing digitalization and the development of social media, the act of reading has transformed into a more social interaction (Cordon Garcia, Alonso Arevalo, Gomez Diaz, & Linder, 2013; Merga, 2015), or rather has returned to its once social origins (Nation, 2018). Social media platforms like Goodreads are online environments where millions of people come to share their love for the written word. Members come together to discuss what they read, what they classify as good or bad literature, and they recommend books to one another or even try their hand at writing fan fiction. Thus, in the digital age the act of reading, which has since the latter half of the 18th century been construed as a mostly solitary, immersive act, has started to involve a social component that goes far beyond that of a real-life book club or public poetry reading. First of all, because of the scale on which this takes place and second because of the new opportunities that online platforms offer in terms of social interactions. This project focuses on the growing phenomenon of online social reading. It is an exploratory study that exploits a new data source and develops new methodologies. Goodreads holds a wealth of qualitative data about reading experience, text evaluation, and social interactions about reading. It would take an experimental researcher an entire career to gather and analyze even just a fraction of the data that is readily available on this website. So far, this treasure trove of data has not been empirically investigated, and this is partly due to the fact that new methodologies have to be developed to extract the data from the website in a meaningful way. This is exactly the gap that our project aims to fill. In order to investigate meaningful ways in which such a reader review corpus might then be used, we are also developing computational linguistics methods to mine the extracted corpus with a specific reader response in mind, namely absorption - the feeling of being lost in a book (Nell, 1988; Kuijpers, 2014). By analyzing reader reviews on Goodreads using textual entailment and text reuse detection (methods from computational linguistics) and comparing them to statements on the Story World Absorption Scale (SWAS; Kuijpers, Hakemulder, Tan & Doicaru, 2014), we will investigate: (1) the potential of converting Goodreads into an extensive qualitative corpus for the computational analyses of reader responses; (2) the validation of the SWAS through comparison with reviews on Goodreads; and (3) the comparison of readers’ absorption across different genres. It is important to study these online social reading phenomena, as they are becoming exceedingly popular and provide new ways for people of all ages to acquire storytelling and literacy skills (Coiro, Knobel, Lankshear, & Leu, 2014). The potential impact of this project is widespread as it will construct a new corpus of interest to researchers from different fields and develop methodologies that can be fine-tuned to be used on various other online corpora that are made up of natural language.
-