Rupal Patel: Synthetic voices, as unique as fingerprints

I dag vil jeg gerne tale om et kraftfuld og grundlæggende aspekt af hvem vi er: vores stemme Hver og en af os, har en unik stemme som reflekterer vores alder, vores størrelse, og selv vores livsstil og personlighed Som digteren Longfellow sagde, "den menneskelige stemme er sjælens talerør." Som taleekspert, er jeg fascineret af hvordan vores stemme er fremstillet, og jeg har en ide til hvordan den kan blive konstrueret. Det er dette som jeg gerne vil dele med jer.

I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.

Jeg vil starte med at afspille en prøve for jer af en stemme som i måske genkender

I'm going to start by playing you a sample of a voice that you may recognize.

(Optagelse) Stephen Hawking: "Jeg ville have troet at det var ret tydeligt hvad jeg mente."

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

Rupal Patel: Dette var Professor Stephen Hawkings stemme. Hvad du måske ikke ved, er at denne samme stemme også kan blive brugt af denne lille pige som ikke kan tale på grund af en neurologisk lidelse. Faktisk kan alle disse individer bruge den samme stemme, og det er fordi der kun er få muligheder tilgængelige. Alene i USA, er der 2.5 millioner amerikanere som ikke kan tale, og mange af dem bruger computerstyrede systemer til at kommunikere. I hele verden, er det millioner af mennesker som bruger generiske stemmer, inklusiv Professor Hawking, som bruger en Amerikansk-betonet stemme. Denne mangel af individualisering af den syntetiske stemme gik virkelig op for mig da jeg var til en konference om teknologiske hjælpemidler for et par år tilbage, og jeg husker hvordan jeg kom ind i en udstillingssal hvor jeg så en lille pige og en voksen mand have en samtale ved hjælp af deres enheder, forskellige enheder, men den samme stemme. Og jeg kiggede rundt og så dette ske alle steder omkring mig, hundrede forskellige mennesker med en håndfuld forskellige stemmer, stemmer som ikke passede til deres kroppe eller deres personligheder. Vi ville aldrig drømme om at give en lille pige en voksen mands protese. So hvorfor er det anderledes med kunstige stemmer? Det ramte mig virkelig, og jeg havde lyst til at gøre noget ved det.

Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.

Nu vil jeg afspille en lydfil af en som har, faktisk to som har, alvorlige taleforstyrrelser. Jeg vil have jer til at lytte til hvordan de lyder. De har samme talemåde.

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(Første stemme)

(First voice)

(Anden stemme) Du forstod nok ikke hvad de sagde, men jeg håber at du hørte deres unikke stemme identiteter.

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

Så det næste jeg havde lyst til at gøre, var at finde ud af hvordan vi kunne udnytte disse resterende vokale evner og bygge en teknologi som kunne være skræddersyet til dem, stemmer som kunne være tilpasset til dem Så jeg henvendte mig til min samarbejdspartner, Tim Bunnell. Dr. Bunell er en ekspert i stemmesyntese, og hvad han har gjort, er at bygge personlige stemmer for mennesker ved at sammensætte førindspillede prøver af deres stemmer og rekonstruere en stemme til dem. Dette er mennesker som havde mistet deres stemme senere i livet. Vi havde ikke den luksus af før-indspillede stemmeprøver til dem der er født med taleforstyrrelser. Men jeg tænkte, der må være en måde at sammensætte en stemme baglæns fra den smule der er tilbage.

So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.

Så vi besluttede at gøre præcis det. Vi indsamlede nogle penge fra den Nationale Videnskabs Fond, så vi kunne skabe specialdesignede stemmer som fangede deres unikke stemme identiteter. Vi kalder dette projekt for "VocaliD", eller stemme I.D., for stemme identitet.

So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.

Før jeg nu kommer ind på detaljerne om hvordan stemmen er lavet og lader jer lytte til den, bliver jeg nødt til at give en meget hurtig lektion om videnskaben bag tale. Okay? Først og fremmest, ved vi at stemmen ændrer sig dramatisk under udviklingen. Børn lyder forskelligt fra teenagere som lyder anderledes end voksne. Vi har alle oplevet dette. Den anden ting er at tale er en kombination af kilden, hvilket er vibrationer genereret i strubehovedet, som derefter er skubbet igennem resten af svælget. Disse er kamrene i dit hoved og din hals som vibrerer, og de filtrerer rent faktisk lydkilden og producerer konsonanter og vokaler. Så kombinationen af kilder og filtrering er hvordan vi producerer tale. Og dette sker i hvert individ.

Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.

Jeg fortalte jer tidligere at jeg har brugt en god del af min karriere på at forstå og studere kildekendetegn ved personer som har alvorlige taleforstyrrelser, og hvad jeg har fundet ud af er, at selv hvis deres filtrering er nedsat, så er de stadig i stand til at modulere deres kilder: tonehøjden, lydstyrken og tempoet i deres stemme. Dette er kaldet prosodi, og jeg har i flere år dokumenteret at de prosodiske evner hos disse individer er bevaret. Så da jeg opdagede at disse samme signaler også er vigtigt for stemmeidentitet, så fik jeg en idé. Hvorfor tager vi ikke kilden fra personen som vi vil have stemmen til at lyde som, fordi den er bevaret, og låner filteret fra en på cirka samme alder og størrelse, fordi de kan artikulere tale, og derefter blande dem sammen? For når vi blander dem sammen, så kan vi få en stemme der er ligeså klar som vores surrogat stemme -- altså personen vi lånte filteret fra -- og som er ens med vores person. Så simpelt er det. Det er videnskaben bag hvad vi laver.

Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.

Så når nu vi ved det, hvordan bygger man så denne stemme? Det du gør, er at du finder en som er villig til at være surrogat. Det er ikke en farlig ting. At være surrogat donor kræver kun at du siger nogle få hundrede til nogle få tusinde ytringer. Processen fungerer cirka sådan her.

So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.

(Video) Stemme: Ting sker i par.

(Video) Voice: Things happen in pairs.

Jeg elsker at sove.

I love to sleep.

Himlen er blå uden skyer.

The sky is blue without clouds.

RP: Nu fortsætter hun sådan for omkring tre til fire timer, og idéen er ikke at hun skal sige alting som vores person med taleforstyrrelse, vil have lyst til at sige, men idéen er at afdække alle de forskellige kombinationer af lyde som findes i sproget. Jo mere tale du har, jo bedre en stemme vil du have. Så snart du har disse optagelser, hvad vi så skal gøre, er at analysere disse optagelser indtil små uddrag af tale, en- eller to- lyd kombinationer, nogle gange endda hele ord som begynder at udfylde et datasæt eller en database. Denne database kalder vi en stemme bank. Det kraftfulde ved denne stemmebank er at fra denne bank, kan vi nu fiske alle nye udtryk, som "Jeg elsker chokolade" -- alle bliver nødt til at kunne sige det -- ud af den database og finde alle de nødvendige segmenter til at sige denne sætning.

RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.

(Video) Stemme: Jeg elsker chokolade

(Video) Voice: I love chocolate.

RP: So det er talesyntese. Det kaldes concatenative syntese, og det er hvad vi bruger. Dette er ikke den nye del. Den nye del er hvordan vi får det til at lyde som denne unge kvinde.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

Dette er Samantha. Jeg mødte hende da hun var ni år gammel, og siden da, har mit team og jeg forsøgt at bygge en personlig stemme til hende. Først måtte vi finde en surrogatdonor, og derefter fik Samantha til at sige nogle sætninger. Hvad hun kan sige er mest vokalagtige lyde, men det er nok for os, til at finde hendes kildekarakteristika. Det næste der sker er bedst beskrevet af min datter. Hun er seks år gammel. Hun kalder det "at blande farver så man kan male stemmer" Det er smukt. Det er præcis dét. Samanthas stemme er som en koncentreret rød frugtfarve som vi kan indføre i optagelserne af hendes surrogat og få en lyserød stemme, så let er det.

This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.

(Video) Samantha: Aaaaah.

(Video) Samantha: Aaaaaah.

RP: Så nu, kan Samantha sige dette.

RP: So now, Samantha can say this.

(Video) Samantha: Denne stemme er kun for mig. Jeg kan ikke vente til at jeg skal bruge min nye stemme overfor mine venner.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

RP: Tak. (Bifald)

RP: Thank you. (Applause)

Jeg vil aldrig glemme det blide smil som spredte sig over hendes ansigt da hun hørte den stemme for første gang. Nu er der millioner af mennesker omkring verden, som Samantha, millioner, og vi er først lige begyndt at kradse i overfladen. Hvad vi har gjort indtil nu, er at vi har nogle få surrogat stemmer fra USA som har doneret deres stemmer, og vi har brugt disse til at bygge vores første personlige stemmer. Men der er så meget mere arbejde at gøre. For Samantha, kom hendes surrogat fra et sted i den amerikanske midtvest, en fremmed som gav hende stemmen som gave. Og som videnskabsmand, er jeg så begejstret for at kunne tage dette arbejde ud af laboratoriet og ud i den virkelige verden så det kan have indflydelse i den virkelige verden. Det næste jeg vil dele med jer er hvordan jeg har planlagt at tage dette arbejde til det næste niveau. Jeg drømmer om en hel verden af surrogatdonorer fra alle steder i livet, forskellige størrelser, forskellige aldre, som sammen vil give folk stemmer som er ligeså farverige som deres personligheder. For at gøre det, er det første trin at vi har lavet denne hjemmeside: VocaliD.org, som en måde at samle dem som sammen med os vil være stemme donorer, ekspertdonorer, som kan hjælpe med at gøre denne vision til virkelighed.

I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.

De siger at donering af blod kan redde liv. At give din stemme kan ændre liv. Alt vi har brug for er nogle få timers stemme fra vores stemme doner og så lidt som en vokal fra vores individ med en taleforstyrrelse for at lave en unik stemme identitet.

They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.

Så det er videnskaben bag hvad vi laver. Jeg vil slutte med at vende tilbage til den menneskelige side som er den virkelige inspiration for dette arbejde. For fem år siden, byggede vi vores første stemme for en lille dreng, kaldet William. Da hans mor først hørte denne stemme, sagde hun: "Dette er hvad William ville have lydt som hvis han havde kunne tale." Og så så jeg William taste en besked på hans enhed. Jeg undrede mig, hvad tænkte han? Forestil dig at gå rundt med en anden persons stemme i ni år og pludselig finde din egen stemme. Forestil dig det.

So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.

Dette er hvad William sagde: "Jeg har aldrig hørt mig før"

This is what William said: "Never heard me before."

Tak

Thank you.

(Bifald)

(Applause)

Jeg vil starte med at afspille en prøve for jer af en stemme som i måske genkender

I'm going to start by playing you a sample of a voice that you may recognize.

(Optagelse) Stephen Hawking: "Jeg ville have troet at det var ret tydeligt hvad jeg mente."

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

Nu vil jeg afspille en lydfil af en som har, faktisk to som har, alvorlige taleforstyrrelser. Jeg vil have jer til at lytte til hvordan de lyder. De har samme talemåde.

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(Første stemme)

(First voice)

(Anden stemme) Du forstod nok ikke hvad de sagde, men jeg håber at du hørte deres unikke stemme identiteter.

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(Video) Stemme: Ting sker i par.

(Video) Voice: Things happen in pairs.

Jeg elsker at sove.

I love to sleep.

Himlen er blå uden skyer.

The sky is blue without clouds.

(Video) Stemme: Jeg elsker chokolade

(Video) Voice: I love chocolate.

RP: So det er talesyntese. Det kaldes concatenative syntese, og det er hvad vi bruger. Dette er ikke den nye del. Den nye del er hvordan vi får det til at lyde som denne unge kvinde.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

(Video) Samantha: Aaaaah.

(Video) Samantha: Aaaaaah.

RP: Så nu, kan Samantha sige dette.

RP: So now, Samantha can say this.

(Video) Samantha: Denne stemme er kun for mig. Jeg kan ikke vente til at jeg skal bruge min nye stemme overfor mine venner.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

RP: Tak. (Bifald)

RP: Thank you. (Applause)

Dette er hvad William sagde: "Jeg har aldrig hørt mig før"

This is what William said: "Never heard me before."

Tak

Thank you.

(Bifald)

(Applause)

Rupal Patel: Synthetic voices, as unique as fingerprints

Rupal Patel: Synthetic voices, as unique as fingerprints

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice