Rupal Patel: Synthetic voices, as unique as fingerprints

Heute möchte ich über einen wichtigen und wesentlichen Aspekt dessen reden, was wir sind: unsere Stimme. Jeder von uns hat einen einzigartigen Stimmabdruck, der unser Alter, unsere Größe und sogar unseren Lebensstil und unsere Persönlichkeit reflektiert. Nach den Worten des Dichters Longfellow: "Die menschliche Stimme ist das Organ der Seele." Als Sprachwissenschaftlerin fasziniert mich, wie die Stimme erzeugt wird, und ich habe eine Vorstellung, wie sie konstruiert werden kann. Das möchte ich mit Ihnen teilen.

I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.

Ich spiele Ihnen erst eine Hörprobe einer Stimme vor, die Sie vielleicht wiedererkennen.

I'm going to start by playing you a sample of a voice that you may recognize.

(Aufnahme) Stephen Hawking: "Ich dachte, es wäre ziemlich klar, was ich meinte."

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

Rupal Patel: Das war die Stimme von Professor Stephen Hawking. Sie wissen vielleicht nicht, dass dieselbe Stimme auch von diesem kleinen Mädchen benutzt werden könnte, die nicht sprechen kann, aufgrund einer neurologischen Erkrankung. Tatsächlich könnten all diese Individuen dieselbe Stimme benutzen, da es nur wenig verfügbare Optionen gibt. Allein in den USA gibt es 2,5 Millionen Amerikaner, die nicht sprechen können, und viele von ihnen nutzen Computergeräte, um zu kommunizieren. Das sind Millionen Menschen weltweit, die generierte Stimmen nutzen, einschließlich Professor Hawking, der eine Stimme mit amerikanischem Akzent verwendet. Dieser Mangel an Individualisation der synthetischen Stimme kam richtig zum Tragen, als ich auf einer Konferenz für Assistierende Technologien war. Das war vor ein paar Jahren. Ich erinnere mich, wie ich in eine Ausstellungshalle ging und ein kleines Mädchen und einen erwachsenen Mann sah, die mittels ihrer Geräte ein Gespräch führten, verschiedene Geräte, aber dieselbe Stimme. Ich schaute mich um und sah, dass das überall um mich herum passierte, buchstäblich Hunderte Personen, die eine Handvoll an Stimmen haben. Stimmen, die weder zu ihren Körpern noch zu ihren Persönlichkeiten passten. Wir würden niemals einem kleinen Mädchen die Prothese eines erwachsenen Manns anpassen. Warum dann dieselbe prothetische Stimme? Es fiel mir sofort auf und ich wollte etwas daran ändern.

Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.

Ich spiele Ihnen nun eine Hörprobe von zwei Menschen vor, die schwere Sprachstörungen haben. Hören Sie sich an, wie sie klingen. Sie machen dieselbe Äußerung.

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(Erste Stimme)

(First voice)

(Zweite Stimme) Sie haben vielleicht nicht verstanden, was sie sagten, aber hoffentlich haben Sie ihre einzigartigen stimmlichen Identitäten gehört.

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

Als nächstes wollte ich herausfinden, wie wir die restlichen Sprechfähigkeiten nutzbar machen können und eine Technologie bauen können, die für sie maßgeschneidert werden kann. Stimmen, die für sie angepasst werden können. Daher kontaktierte ich meinen Mitarbeiter, Tim Bunnell. Dr. Bunnell ist ein Experte in Sprachsynthese und er hat personalisierte Stimmen für Menschen kreiert, indem er aufgezeichnete Proben ihrer Stimmen zusammenstellte und eine Stimme für sie rekonstruierte. Diese Menschen haben ihre Stimmen später im Leben verloren. Wir konnten es uns nicht leisten, aufgezeichnete Sprachproben zu nutzen, für die mit einer Sprachstörung geborenen. Aber ich dachte, es müsse einen Weg geben, eine Stimme zu rekonstruieren, aus dem, was noch übrig ist.

So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.

Wir entschieden uns also, genau das zu tun. Wir begannen mit wenig finanziellen Mitteln von der National Science Foundation, maßgefertigte Stimmen zu erschaffen, die ihre einzigartige Stimm-Identität einfingen. Wir nennen dieses Projekt VocaliD, oder vokale I.D., für vokale Identität.

So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.

Bevor ich jetzt ins Detail gehe, wie die Stimme gemacht wird und Sie sie anhören können, muss ich Ihnen eine kurze Lektion in Sprachwissenschaften geben. Erstens wissen wir, dass die Stimme sich im Laufe der Entwicklung dramatisch ändert. Kinder hören sich anders an als Jugendliche, welche sich anders anhören als Erwachsene. Wir haben das alle erlebt. Zweitens ist Sprache eine Kombination der Klangquelle die von unserem Kehlkopf generierten Vibrationen, die dann durch den Rest des Stimmapparats gedrückt werden. Diese Hohlräume in Ihrem Kopf und Hals vibrieren, und sie filtern die Klangquelle, um Konsonanten und Vokale zu erzeugen. Mit der Kombination von Quelle und Filter produzieren wir Sprache. Und das findet in einem Individuum statt.

Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.

Ich habe Ihnen anfangs gesagt, dass ich einen guten Teil meiner Karriere damit verbrachte, die Quellmerkmale von Menschen mit schwerer Sprachstörung zu verstehen und zu studieren. Und ich fand heraus, dass sie trotz ihrer beschädigten Filter ihre Quelle modulieren konnten: die Tonlage, die Lautstärke, das Tempo ihrer Stimme. Das nennt sich Prosodie, und ich habe jahrelang dokumentiert, dass die prosodischen Fähigkeiten dieser Menschen erhalten sind. Als ich feststellte, dass dieselben Umgebungsreize auch für die Sprecheridentität wichtig sind, hatte ich diese Idee. Warum nehmen wir nicht diese Schallquelle von der Person, nach der die Stimme klingen soll, da sie erhalten ist, und borgen den Filter von jemanden mit gleichem Alter und Größe aus, denn sie können Sprache artikulieren und diese mixen? Denn wenn wir sie mischen, erhalten wir eine Stimme, die so klar ist wie die unseres Ersatzsprechers -- das ist die Person, von der wir den Filter geborgt haben -- und entspricht der Identität unseres Ziel-Sprechers. So einfach ist das. Das ist die Wissenschaft hinter dem, was wir machen.

Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.

Wenn Sie das im Sinn haben, wie erzeugt man nun diese Stimme? Man muss jemanden finden, der sich als Stellvertreter zur Verfügung stellt. Das ist keine besonders bedrohliche Sache. Ein Ersatzstimmen-Spender zu sein erfordert nur ein paar hundert bis tausend Äußerungen zu sprechen. Der Prozess ist in etwa so.

So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.

(Video) Stimme: Die Dinge geschehen paarweise.

(Video) Voice: Things happen in pairs.

Ich schlafe ungeheuer gern.

I love to sleep.

Der Himmel ist wolkenlos blau.

The sky is blue without clouds.

RP: Jetzt wird sie 3 bis 4 Stunden so weiter machen. Ziel ist es nicht, dass sie alles sagen muss, was die Zielperson sagen will, sondern alle verschiedenen Kombinationen von Klängen abzudecken, die in der Sprache vorkommen. Je mehr Sprachaufnahmen man hat, desto besser wird die Stimme klingen. Wenn man einmal die Aufnahmen hat, müssen wir diese Aufzeichnungen in Sprach-Schnipsel zergliedern, 1- bis 2-Sekunden lange Klangkombinationen. Manchmal sogar ganze Wörter, die einen Datensatz oder eine Datenbank bevölkern. Wir werden diese Datenbank eine Stimmen-Bank nennen. Die Stärke dieser Stimmen-Bank ist, dass man jetzt irgendwelche neuen Äußerungen sagen kann, wie, "Ich liebe Schokolade" -- jeder muss in der Lage sein, das zu sagen -- die Datenbank zu durchsuchen und all die notwendigen Teilstücke zu finden, um diese Äußerung zu sagen.

RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.

(Video) Stimme: Ich liebe Schokolade.

(Video) Voice: I love chocolate.

RP: Das ist Sprach-Synthese. Das nennt sich konkatenative Synthese, und das setzen wir ein. Das ist nicht das Neue. Das Neue daran ist, wie wir es so klingen lassen wie diese junge Frau.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

Das ist Samantha. Ich traf sie, als sie 9 war, und seit damals haben mein Team und ich versucht, ihre personalisierte Stimme zu kreieren. Zuerst mussten wir einen Ersatz-Spender finden, und dann mussten wir Samantha dazu bringen, ein paar Äußerungen zu machen. Sie kann zumeist vokalähnliche Laute produzieren, aber das reicht uns, um ihre Klangcharakteristika rauszufiltern. Das Folgende wird am besten durch die Analogie meiner 6-jährigen Tochter beschrieben. Sie nennt es Farben mischen, um Stimmen zu malen. Das ist wunderbar. Genau das machen wir. Samanthas Stimme ist wie eine konzentrierte Probe von roter Lebensmittelfarbe, die wir in die Aufnahmen ihrer Stellvertreterin einfließen lassen können, um eine rosa Stimme wie diese zu erhalten.

This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.

(Video) Samantha: Aaaaaah.

RP: Jetzt kann Samantha das sagen.

RP: So now, Samantha can say this.

(Video) Samantha: Diese Stimme ist nur für mich. Ich kann es kaum erwarten, meine neue Stimme an meinen Freunden auszuprobieren.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

RP: Danke. (Applaus)

RP: Thank you. (Applause)

Ich werde nie das sanfte Lächeln vergessen, das sich auf ihrem Gesicht ausbreitete, als sie zum ersten Mal diese Stimme hörte. Es gibt Millionen von Menschen auf der Welt wie Samantha, Millionen, und das ist erst der Anfang. Bisher haben wir ein paar Ersatz-Sprecher aus den USA, die ihre Stimmen gespendet haben, und wir haben diese genutzt, um unsere ersten paar personalisierten Stimmen zu erschaffen. Aber es gibt noch so viel zu tun. Bei Samantha kam ihre Stellvertreterin irgendwo aus dem mittleren Westen, eine Fremde, die ihr die Gabe einer Stimme schenkte. Als Wissenschaftlerin bin ich so begeistert, diese Arbeit aus dem Labor hinaus und endlich in die echte Welt zu tragen, damit es eine reale Auswirkung haben kann. Als nächstes möchte ich Ihnen erzählen, wie ich mir vorstelle, diese Arbeit auf die nächste Ebene zu bringen. Ich stelle mir eine Welt voller Ersatz-Spender vor, aus allen sozialen Geschichten, verschiedener Größen und unterschiedlichen Alters, die in diesem Stimmen-Laufwerk zusammenkommen, um Menschen Stimmen zu geben, die so farbenfroh sind wie ihre Persönlichkeiten. Um diesen ersten Schritt zu tun, haben wir diese Website erstellt, VocaliD.org, um die zusammenzubringen, die uns als Stimmen-Spender beitreten wollen, als Experten-Spender, in welcher Form auch immer, um diese Vision zu ermöglichen.

I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.

Man sagt, dass Blutspenden Leben retten kann. Seine Stimme herzugeben, kann Leben verändern. Wir brauchen nur ein paar Stunden Rede von unserem Ersatz-Sprecher, und nur einen Vokal von unserem Ziel-Sprecher, um eine einzigartige Stimmidentität zu kreieren.

They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.

Das ist die Wissenschaft hinter unserer Tätigkeit. Abschließend möchte ich auf die menschliche Seite zurückkommen, das ist die eigentliche Inspiration für diese Arbeit. Vor etwa 5 Jahren schufen wir unsere allererste Stimme für einen kleinen Jungen namens William. Als seine Mutter diese Stimme erstmals hörte, sagte sie: "So hätte William sich angehört, wenn er sprechen könnte." Und dann sah ich William diese Nachricht auf seinem Gerät schreiben. Ich frage mich, was er dachte. Stellen Sie sich vor, jemand anderes Stimme neun Jahre lang herumzutragen und endlich die eigene Stimme zu finden. Stellen Sie sich das vor.

So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.

William sagte Folgendes: "Hab mich vorher noch nie gehört."

This is what William said: "Never heard me before."

Danke.

Thank you.

(Applaus)

(Applause)

Ich spiele Ihnen erst eine Hörprobe einer Stimme vor, die Sie vielleicht wiedererkennen.

I'm going to start by playing you a sample of a voice that you may recognize.

(Aufnahme) Stephen Hawking: "Ich dachte, es wäre ziemlich klar, was ich meinte."

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

Ich spiele Ihnen nun eine Hörprobe von zwei Menschen vor, die schwere Sprachstörungen haben. Hören Sie sich an, wie sie klingen. Sie machen dieselbe Äußerung.

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(Erste Stimme)

(First voice)

(Zweite Stimme) Sie haben vielleicht nicht verstanden, was sie sagten, aber hoffentlich haben Sie ihre einzigartigen stimmlichen Identitäten gehört.

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(Video) Stimme: Die Dinge geschehen paarweise.

(Video) Voice: Things happen in pairs.

Ich schlafe ungeheuer gern.

I love to sleep.

Der Himmel ist wolkenlos blau.

The sky is blue without clouds.

(Video) Stimme: Ich liebe Schokolade.

(Video) Voice: I love chocolate.

RP: Das ist Sprach-Synthese. Das nennt sich konkatenative Synthese, und das setzen wir ein. Das ist nicht das Neue. Das Neue daran ist, wie wir es so klingen lassen wie diese junge Frau.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

(Video) Samantha: Aaaaaah.

RP: Jetzt kann Samantha das sagen.

RP: So now, Samantha can say this.

(Video) Samantha: Diese Stimme ist nur für mich. Ich kann es kaum erwarten, meine neue Stimme an meinen Freunden auszuprobieren.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

RP: Danke. (Applaus)

RP: Thank you. (Applause)

William sagte Folgendes: "Hab mich vorher noch nie gehört."

This is what William said: "Never heard me before."

Danke.

Thank you.

(Applaus)

(Applause)

Rupal Patel: Synthetic voices, as unique as fingerprints

Rupal Patel: Synthetic voices, as unique as fingerprints

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice