Project

Back to overview

How algorithms shape language

Applicant Kaplan Frédéric
Number 149758
Funding scheme Project funding (Div. I-III)
Research institution Laboratoire d'humanités digitales EPFL CDH CDH-CH DHLAB
Institution of higher education EPF Lausanne - EPFL
Main discipline Information Technology
Start/End 01.05.2014 - 31.10.2017
Approved amount 328'500.00
Show all

Keywords (5)

computational models of linguistic evolution; algorithmic texts; search engine optimization; autocompletion services; optimal experiment design

Lay Summary (French)

Lead
Ce projet étudie le rôle joué par des algorithmes dans la transformation de la langue sur Internet. En développant de nouveaux outils d'analyse, il a pour objectif d'évaluer à quel point des services comme l'autocomplétion ou la traduction automatique, tendent à faire évoluer les langues naturelles. Il explore également les liens entre ces médiations algorithmiques et le marché linguistique constitué par la vente aux enchères de mots.
Lay summary

Depuis quelques années, un nombre croissant d'algorithmes transforment les textes que nous produisons. Certains algorithmes prolongent les mots ou les phrases que nous écrivons (autocomplétion et suggestion), d'autres produisent des textes inédits (traductions algorithmiques, résumés automatiques). Le développement rapide de ces algorithmes doit être étudié dans le cadre du contexte économique dans lequel ils opèrent, notamment la vente aux enchères de mots qui produit chaque année un chiffre d'affaires de plusieurs dizaines de milliards de dollars. Quand les services d’autocomplétion modifient à la volée un mot mal orthographié, ils ne font pas que rendre service. Dans la plupart des cas, ils transforment un matériel linguistique sans grande valeur en une ressource économique potentiellement profitable. D'autres algorithmes modifient les textes pour optimiser leur rang dans les résultats des moteurs de recherche et obtenir ainsi plus de visites sur les sites associés. Ce projet a pour but de progresser dans le développement de méthodes pour mieux comprendre et mesurer les possibles évolutions linguistiques provoquées par ces médiations algorithmiques, notamment en développant des procédés pour distinguer les textes algorithmiques des textes naturels et en construisant des modèles informatiques pour tester diverses hypothèses sur les évolutions possibles des langues naturelles dans les années prochaines.

Direct link to Lay Summary Last update: 22.10.2013

Responsible applicant and co-applicants

Employees

Publications

Publication
Analyse multi-échelle de n-grammes sur 200 années d'archives de presse
Vincent Buntinx Frédéric Kaplan and Aris Xanthos (2017), Analyse multi-échelle de n-grammes sur 200 années d'archives de presse.
Studying Linguistic Changes over 200 Years of Newspapers through Resilient Words Analysis
Vincent Buntinx Cyril Bornet and Frédéric Kaplan (2017), Studying Linguistic Changes over 200 Years of Newspapers through Resilient Words Analysis, in Frontiers in Digital Humanities, 10.3389.
Navigating through 200 years of historical newspapers
Yannick Rochat et al. (2016), Navigating through 200 years of historical newspapers, in Long paper, IPRES 2016, Suisse.
Studying linguistic changes on 200 years of newspapers
Vincent Buntinx Cyril Bornet Frédéric Kaplan (2016), Studying linguistic changes on 200 years of newspapers, in Poster, DH2016, Poland.
Inversed N-gram viewer: Searching the space of word temporal profiles
Vincent Buntinx Frédéric Kaplan (2015), Inversed N-gram viewer: Searching the space of word temporal profiles, in Long paper.
Google et l'impérialisme linguistique: Il pleut des chats et des chiens
Frédéric Kaplan et Dana Kianfar (2015), Google et l'impérialisme linguistique: Il pleut des chats et des chiens.
Negentropic linguistic evolution: A comparison of seven languages
Vincent Buntinx and Frédéric Kaplan, Negentropic linguistic evolution: A comparison of seven languages, in Long paper.

Associated projects

Number Title Start Funding scheme
173719 Media Monitoring of the Past 01.09.2017 Sinergia

Abstract

This project investigates the recent role of algorithms in the evolution of natural languages on the internet. A large variety of algorithmic processes operate as intermediary in textual chains, transforming texts into other texts. Other algorithms mediate our textual expression, for instance through auto-completion and suggestion services. Some algorithms like automatic translators, text summarizing techniques, text spinning services, or other pattern-based generative writing algorithms produce texts of their own. The rapid development of these algorithms cannot be understood independently from the economic context in which they operate. Auto-completion and suggestion algorithms can transform misspelled queries into “correct” ones on which bids can be placed and for which ads can be displayed. Many text producing algorithms optimise page ranks for search engine with the objective of bringing more traffic to the corresponding sites. This project intends to progress in the development of methods and tools for monitoring this evolution, distinguishing algorithmic texts from texts produced by humans, and building computational models giving way to new hypotheses in order to understand this global linguistic evolution.
-