Project

Back to overview

MASS: Multilingual Affective Speech Synthesis

Applicant Garner Philip
Number 165545
Funding scheme Project funding (Div. I-III)
Research institution IDIAP Institut de Recherche
Institution of higher education Idiap Research Institute - IDIAP
Main discipline Information Technology
Start/End 01.05.2017 - 31.10.2020
Approved amount 180'375.00
Show all

Keywords (5)

Prosody; Speech synthesis; Emotion; Deep learning ; Affect

Lay Summary (French)

Lead
Synthèse de la parole affective multilingue
Lay summary
Ces dernières années les domaines de la synthèse et de la reconnaissance vocale
ont fait de grands progrès, principalement dans le domaine de l'apprentissage
profond et en particulier grâce aux réseaux neuronaux profonds
(DNN). L'application la plus utilisée pour l'instant par la population est du
type "assistance vocale", telle que Siri chez Apple ou Cortana chez Microsoft.

Bien que ces deux assistants vocaux puissent comprendre des ordres et parler
correctement, ils sont encore très limités dans l'expression (et la
compréhension) des émotions. Par émotion, comprenons-le dans le sens de
l'affect. L'affect est porté principalement par la prosodie qui se définit
comme la durée, l'intensité et la mélodie que l'on donne à ses paroles. Le but
de ce projet et de comprendre en quoi la prosodie produit l'affect et par
là-même comment l'utiliser pour produire une voix synthétique affective.

Une approche possible serait d'entraîner un synthétiseur vocal avec de la
parole affective; les DNNS sont reconnus pour leur efficacité dans un tel
scenario. Mais une autre approche serait de comprendre les relations qui
existent entre des caractéristiques prosodiques (et phonétiques) individuelles
et l'affect qu'elles produisent. Cette dernière approche semble plus porteuse
car elle pourrait être appliquée à plusieurs langues. De récentes recherches à
l'Idiap ont permis de découvrir comment nous pourrions représenter de tels
événements.

La Suisse est par essence un pays plurilingue. Il semble donc plus intéressant
de prendre l'approche multi-langues. Les langues parlées en Suisse semblent
fournir une bonne base pour conduire nos recherches. D'où d'ailleurs le titre
de ce projet: MASS: Synthèse de la parole affective multilingue.

Direct link to Lay Summary Last update: 17.02.2017

Lay Summary (English)

Lead
Multilingual Affective Speech Synthesis
Lay summary
In recent years, the fields of speech recognition and synthesis have advanced
significantly owing mainly to advances in so called deep learning, especially
deep neural networks (DNNs).  The main way that ordinary people are exposed to
such technology is via assistants such as Apple's Siri or Microsoft's Cortana.

Although Siri and Cortana can hear and speak well, they are not good at
expressing (or understanding) emotion.  Emotion is referred to in the field as
"affect".  Affect in turn is carried mainly by prosody, i.e., the duration,
energy and pitch of the speech.  The goal of this project is to understand the
way prosody produces affect, hence how to use it to produce affective synthetic
speech.

One potential approach is to simply train a speech synthesiser on affective
speech; DNNs are known to respond well to this.  Another approach is to
understand the relationships between individual prosodic (and phonetic)
features, and the affect that they produce.  This latter approach is promising
because it has the potential to work multilingually.  Recent work at Idiap has
uncovered how we may represent such prosodic events.

Switzerland is a fundamentally multilingual community.  It is a good place to
investigate the way aspects of speech vary across language.  The Swiss
languages will provide the basis for the investigation.  Hence the project is
MASS, Multilingual Affective Speech Synthesis.

Direct link to Lay Summary Last update: 17.02.2017

Responsible applicant and co-applicants

Employees

Name Institute

Associated projects

Number Title Start Funding scheme
141903 SIWIS: Spoken Interaction with Interpretation in Switzerland 01.12.2012 Sinergia
152495 SP2: Scopes Project on Speech Prosody 01.04.2014 SCOPES
185010 NAST: Neural Architectures for Speech Technology 01.02.2020 Project funding (Div. I-III)

Abstract

We propose a project in affective speech synthesis in which we take two orthogonal approaches to synthesis of affect. In the first, data driven approach, we propose to learn affect using deep learning. In the second approach, we propose to use parametric approaches to prosody and formant shifting. We also plan to cover the main Swiss languages; these include German, in which much previous work on affect has been done, and Italian, which is intuitively more emotive, but has previously been overlooked in this and related subjects.
-