Rupal Patel: Synthetic voices, as unique as fingerprints

I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.

J'aimerais vous parler aujourd'hui d'un aspect puissant et fondamental de notre être : notre voix. Chacun d'entre nous a une empreinte vocale unique qui révèle notre âge, notre taille, et même notre mode de vie et notre personnalité. Pour citer les mots du poète Longfellow, « la voix humaine est l'organe de l'âme ». En tant que scientifique du language, je suis fascinée par la façon dont la voix est produite, et j'ai une idée sur une façon de la fabriquer. Voilà ce que j'aimerais partager avec vous.

I'm going to start by playing you a sample of a voice that you may recognize.

Je vais commencer par vous faire écouter un exemple d'une voix que vous allez sûrement reconnaître.

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

(Enregistrement) Stephen Hawking : « J'aurais pensé que mon intention était évidente ».

Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.

Rupal Patel : C'était la voix du professeur Stephen Hawking. Ce que vous ne savez peut-être pas, c'est que cette même voix pourrait également être utilisée par cette petite fille qui est incapable de parler à cause d'un trouble neurologique. En fait, tous ces individus utilisent peut-être cette même voix, et c'est parce qu'il n'existe que quelque options. Rien qu'aux États-Unis, il y a 2,5 millions d'américains qui ne peuvent pas parler et nombre d'entre eux utilisent des appareils informatiques pour communiquer. Des millions de personnes dans le monde entier utilisent des voix génériques, y compris le professeur Hawking, qui utilise une voix avec un accent américain. Ce manque d'individualisation de la voix synthétique m'a vraiment frappée alors que j'assistais à une conférence sur les technologies d'assistance il y a quelque années, je me souviens que je suis entrée dans une salle d'exposition et j'ai vu une petite fille et un homme adulte qui conversaient à l'aide de leurs appareils, des appareils différents, mais la même voix J'ai regardé autour de moi et j'ai vu cela se produire tout autour de moi, vraiment des centaines d'individus qui utilisent quelques voix, des voix qui ne correspondaient pas à leur corps ou à leur personnalité, personne n'imaginerait faire porter à une petite fille la prothèse d'un homme adulte. Alors pourquoi la même voix prothétique ? Ça m'a profondément frappé. et donc j'ai voulu agir par rapport à ça.

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

Je vais vous faire écouter à présent un exemple d'une personne, deux personnes en fait, qui présentent de très graves troubles du langage. J'aimerais que vous écoutiez attentivement leur son. Ils prononcent la même phrase.

(First voice)

(Première voix)

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(Deuxième voix) Vous n'avez sûrement pas compris ce qu'ils disent, mais j'espère que vous avez entendu leurs identités vocales uniques.

So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.

Donc ensuite ce que je voulais faire, était de découvrir comment pouvoir conserver ces capacités résiduelles vocales et construire une technologie qui pourrait être personnalisée pour eux, des voix sur mesure pour eux. J'ai donc contacté mon collaborateur, Tim Bunnell. Dr. Bunnell est un expert en synthèse vocale, et il a construire des voix personnalisées pour des gens en assemblant des morceaux pré-enregistrés de leur voix et reconstruit une voix pour eux. Ce sont des personnes qui ont perdu leur voix tardivement. Nous n'avions pas le luxe d'avoir des morceaux pré-enregistrés de voix pour ceux nés avec un trouble du langage. Mais, je me suis dis qu'il y avait sûrement une façon de rétroconcevoir la voix à partir du peu qu'il restait.

So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.

Nous avons donc décidé de faire exactement cela. Nous avons commencé avec un peu de financement de la Fondation nationale pour la science, pour créer des voix conçues sur mesure qui capturaient leurs identités vocales uniques. Nous appelons ce projet VocaliD, ou vocal I.D.,

Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.

l'abréviation d'identité vocale. Maintenant, avant d'entrer dans les détails de la façon dont la voix est conçue et vous permettre de l'écouter, je dois vous donner une leçon rapide sur la science du langage. Alors d'abord, nous savons que la voix change considérablement au cours de notre développement. Les enfants ont une voix différente de celles des adolescents qui ont une voix différente de celle des adultes. Nous avons tous vécu ça. le second fait est que le langage est une combination de la source, qui est les vibrations générées par votre larynx, qui sont ensuite poussées à travers du reste de l'appareil vocal. Ce sont les chambres de votre tête et du cou qui vibrent, et elles filtrent la source sonore pour produire des consonnes et des voyelles. Ainsi, c'est avec la combinaison de la source et du filtre que nous produisons la parole. Ça se produit chez un individu.

Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.

Tout à l'heure, je vous ai dit que j'ai passé une bonne partie de ma carrière à comprendre et à étudier les caractéristiques sources de personnes souffrant de graves troubles du langage, et ce que j'ai trouvé, c'est que même si leurs filtres étaient détériorés, ils étaient capables de moduler leur source : le ton, le volume et le tempo de leur voix. On appelle ça la prosodie et ça fait des années que je décris que les capacités prosodiques de ces individus sont conservées. Alors, quand j'ai réalisé que ces mêmes signaux sont également importants pour l'identité du locuteur, j'ai eu cette idée. Pourquoi ne prenons-nous pas la source de la personne dont nous voulons avoir la voix, car elle est conservée, et nous empruntons le filtre de quelqu'un d'environ le même âge et la taille, parce qu'ils peuvent produire de la parole, et ensuite les mélanger ? Parce que quand nous les mélangeons, nous pouvons obtenir une voix qui est aussi claire que notre locuteur de substitution, c'est la personne à qui nous avons emprunté le filtre, et qui est similaire à l'identité de notre locuteur cible. C'est aussi simple que ça. C'est la science derrière ce que nous faisons.

So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.

Donc, une fois que vous avez ça à l'esprit, comment allez-vous construire cette voix ? Eh bien, vous devez trouver quelqu'un qui est prêt à être un substitut. Ce n'est pas une chose sinistre. Pour être un donneur de substitution, vous n'avez qu'à dire entre une centaine et un millier d'énoncés. Le processus se passe comme ça.

(Video) Voice: Things happen in pairs.

(Vidéo) Voix : Les choses se produisent en paires.

I love to sleep.

J'aime dormir.

The sky is blue without clouds.

Le ciel est bleu sans nuages.

RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.

RP : Elle va continuer comme ça pendant environ trois à quatre heures, et l'idée n'est pas qu'elle dise tout ce que la cible va vouloir dire, mais l'idée est de couvrir toutes les différentes combinaisons de sons qui existent dans le langage. Plus vous avez de paroles, meilleur sera le son de la voix. Une fois qu'on a ces enregistrements, ce qu'on doit faire c'est analyser ces enregistrements en bribes de discours, des combinaisons d'un son ou deux, parfois même des mots entiers, ce qui commence à remplir un ensemble de données ou une base de données. On appellera cette base de données une banque de voix. Le pouvoir de la banque de voix est que cette banque de voix, nous pouvons maintenant dire n'importe quel énoncé, comme, « J'aime le chocolat » -- tout le monde doit pouvoir dire ça -- piocher dans cette base de données et trouver tous les segments nécessaires pour dire cet énoncé.

(Video) Voice: I love chocolate.

(Vidéo) Voix : J'aime le chocolat.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

RP : Donc, c'est la synthèse du langage. C'est ce qu'on appelle la synthèse par concaténation, et c'est ce que nous utilisons. Ce n'est pas la partie novatrice. L'innovation est comment nous faisons

This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.

pour que le son soit comme celui de cette jeune femme. C'est Samantha. Je l'ai rencontré quand elle avait neuf ans, et depuis lors, mon équipe et moi avons essayé de lui construire une voix personnalisée. Il fallait d'abord trouver un donneur de substitution, et puis nous avons dû faire dire à Samantha quelques énoncés. Ce qu'elle peut produire, ce sont surtout des sons de voyelles, mais c'est assez pour que nous extrayons ses caractéristiques d'origine. Ce qui se passe ensuite est mieux décrit par l'analogie de ma fille. Elle a six ans. Elle appelle ça le mélange des couleurs pour peindre les voix. C'est beau. C'est exactement ça. La voix de Samantha est comme un échantillon concentré de colorant alimentaire rouge que nous pouvons imprégner dans les enregistrements de son substitut pour obtenir une voix rose, comme ça.

(Video) Samantha: Aaaaaah.

(Vidéo) Samantha : Aaaaaah.

RP: So now, Samantha can say this.

RP : Alors maintenant, Samantha peut dire ça.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

(Vidéo) Samantha : Cette voix est seulement pour moi. Je suis impatiente d'utiliser ma nouvelle voix avec mes amis.

RP: Thank you. (Applause)

RP : Merci. (Applaudissements)

I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.

Je n'oublierai jamais le doux sourire qui s'est propagé sur son visage quand elle a entendu cette voix pour la première fois. I y a des millions de gens partout dans le monde comme Samantha, des millions, et nous avons seulement commencé à gratter la surface. Ce que nous avons fait jusqu'à présent, c'est que nous avons quelques locuteurs de substitution partout aux États-Unis qui ont fait don de leurs voix, et nous les avons utilisées pour construire nos premières voix personnalisées. Mais il y a tellement plus à faire. Pour Samantha, son substitut venait de quelque part dans le Mid-Ouest, une inconnue qui lui a fait le don de la voix. En tant que scientifique, je suis tellement enthousiaste de sortir ce travail du laboratoire et de l'amener enfin dans le monde réel, de sorte qu'il puisse avoir un impact réel dans le monde. Ce que je veux vous dire ensuite est comment j'envisage d'amener ce travail au niveau suivant. J'imagine un monde entier de donneurs de substitution de toutes conditions de différentes tailles, de différents âges, se rassemblant dans ce lecteur vocal pour donner aux gens des voix qui sont aussi colorées que leurs personnalités Pour ce faire, dans un premier temps, nous avons mis en place ce site, VocaliD.org, comme un moyen de rassembler ceux qui veulent se joindre à nous en tant que donneurs de voix, comme donneurs d'expertise, quelle que soit la façon de faire de cette vision une réalité.

They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.

On dit que le don de sang peut sauver des vies. Donner votre voix peut changer des vies. Tout ce dont nous avons besoin est quelques heures de discours de notre locuteur de substitution, et aussi peu qu'une voyelle de notre locuteur cible, pour créer une identité vocale unique.

So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.

Voilà la science derrière ce que nous faisons. Je veux terminer en revenant sur le côté humain qui est vraiment l'inspiration pour ce travail. Il y a cinq ans, nous avons construit notre première voix pour un petit garçon du nom de William. Lorsque sa mère a entendu cette voix pour la première fois, elle a dit, « C'est ce que William aurait eu comme voix s'il avait été en mesure de parler. » Puis, j'ai vu William taper un message sur son appareil. Je me demandais ce qu'il pensait. Imaginez-vous avoir la voix de quelqu'un d'autre pendant neuf ans et enfin trouver votre propre voix. Imaginez ça.

This is what William said: "Never heard me before."

Voici que William a dit : « Je ne m'étais jamais entendu avant »

Thank you.

Merci.

(Applause)

(Applaudissements)

I'm going to start by playing you a sample of a voice that you may recognize.

Je vais commencer par vous faire écouter un exemple d'une voix que vous allez sûrement reconnaître.

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

(Enregistrement) Stephen Hawking : « J'aurais pensé que mon intention était évidente ».

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(First voice)

(Première voix)

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(Deuxième voix) Vous n'avez sûrement pas compris ce qu'ils disent, mais j'espère que vous avez entendu leurs identités vocales uniques.

(Video) Voice: Things happen in pairs.

(Vidéo) Voix : Les choses se produisent en paires.

I love to sleep.

J'aime dormir.

The sky is blue without clouds.

Le ciel est bleu sans nuages.

(Video) Voice: I love chocolate.

(Vidéo) Voix : J'aime le chocolat.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

(Video) Samantha: Aaaaaah.

(Vidéo) Samantha : Aaaaaah.

RP: So now, Samantha can say this.

RP : Alors maintenant, Samantha peut dire ça.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

(Vidéo) Samantha : Cette voix est seulement pour moi. Je suis impatiente d'utiliser ma nouvelle voix avec mes amis.

RP: Thank you. (Applause)

RP : Merci. (Applaudissements)

This is what William said: "Never heard me before."

Voici que William a dit : « Je ne m'étais jamais entendu avant »

Thank you.

Merci.

(Applause)

(Applaudissements)

Rupal Patel: Synthetic voices, as unique as fingerprints

Rupal Patel: Synthetic voices, as unique as fingerprints

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice