I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.
Данас бих желела да говорим о моћном и основном аспекту онога што јесмо - о нашем гласу. Свако од нас има јединствене карактеристике гласа које одражавају нашу старост, величину, чак и начин живота и личност. Исказано речима песника Лонгфелоа: „Људски глас је орган душе.“ Као научницу који се бави говором, фасцинира ме начин на који се људски глас производи, а имам идеју како се може и пројектовати. То је оно што желим да поделим са вама.
I'm going to start by playing you a sample of a voice that you may recognize.
Почећу са пуштањем узорка гласа који ћете можда препознати.
(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."
(Снимак) Стивен Хокинг: „Помислио бих да је прилично очигледно на шта сам мислио.“
Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.
Рупел Пател: Био је то глас професора Стивена Хокинга. Можда не знате да исти глас може користити ова мала девојчица која не може да говори због неуролошке болести. Заправо, сви ови појединци могу да користе исти глас, а то је због тога што постоји само неколико доступних опција. Само у Сједињеним Државама постоји 2,5 милиона Американаца који не могу да говоре, а многи међу њима користе компјутерске уређаје да би комуницирали. То је неколико милиона људи широм света који користе генеричне гласове, укључујући и професора Хокинга, који користи глас са америчким акцентом. Недостатак индивидуалности код синтетичких гласова заиста је упао у очи док сам била на конференцији за помоћну технологију пре неколико година, а сећам се да сам ушла у изложбену салу и видела девојчицу и одраслог човека док разговарају уз помоћ ових уређаја, различитих уређаја, али користећи исти глас. Погледала сам около и видела да се ово дешава свуда око мене, буквално стотине особа користи неколицину гласова, гласова који се нису уклапали уз њихова тела или њихове личности. Не би нам пало на памет да девојчици поставимо простетички уд одраслог човека. Зашто онда исти простетички глас? Заиста ми је оставило утисак и желела сам да урадим нешто поводом овога.
I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.
Сада ћу вам пустити узорак некога ко има, две особе, заправо, које имају озбиљне поремећаје говора. Желим да послушате како звуче. Изговарају исти исказ.
(First voice)
(Први глас)
(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.
(Други глас) Вероватно нисте разумели шта су рекли, али се надам да сте чули њихове јединствене гласовне идентитете.
So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.
Тако, као следећу ствар коју желим да урадим, пожелела сам да откријем како можемо да искористимо ове преостале гласовне способности и да направимо технологију која би им била прилагођена, гласове који би им били прилагођени. Тако сам се обратила свом сараднику, Тиму Банелу. Др Банел је стручњак за синтезу говора, а он је радио на стварању персонализованих гласова за људе тако што је састављао претходно уснимљене узорке њихових гласова и реконструисао гласове за њих. Ово су људи који су изгубили глас касније у животу. Нисмо имали луксуз претходно уснимљених узорака говора за оне који су рођени са поремећајем говора. Ипак, помислила сам да мора постојати начин да се спроведе обрнути инжењеринг гласа од онога што је остало, ма колико мало то било.
So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.
Тако смо одлучили да учинимо управо то. Кренули смо са мало финансирања из „Националне научне фондације“ да бисмо створили прилагођене гласове који су обухватали њихове јединствене гласовне идентитете. Овај пројекат зовемо „Вокалиди“, или гласовна идентификација, што означава гласовни идентитет.
Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.
Е, сад, пре него што детаљно образложим процес стварања гласа и пустим вам га, треба укратко да вам дам кратку лекцију из науке о говору, важи? Као прво, знамо да се глас значајно мења током периода развоја. Деца другачије звуче од тинејџера, који звуче другачије од одраслих. Сви смо ово доживели. Друга чињеница је да је говор комбинација извора, што су вибрације које ствара ваш гркљан, а које затим пролазе кроз остатак говорних органа. Ово су шупљине у вашој глави и врату које вибрирају, а заправо филтрирају тај изворни звук да би произвеле сугласнике и самогласнике. Тако је комбинација извора и филтера начин на који стварамо говор, а то се дешава у једној особи.
Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.
Рекла сам вам раније да сам провела добар део своје каријере у разумевању и проучавању изворних особености људи са озбиљним говорним поремећајима, а открила сам да, иако су им филтери оштећени, они могу да подешавају свој извор - висину, јачину, темпо свог гласа. Ово се назива прозодија, а документовала сам годинама да су прозодијске способности ових појединаца сачуване. Тако, када сам схватила да су ове исте одреднице важне и за говорников идентитет, добила сам ову идеју. Зашто не бисмо узели извор од особе на чији глас желимо да ово личи, јер је очуван, и позајмимо филтер од некога ко је исте старости и величине, јер могу да артикулишу говор, и укомбинујемо их? Зато што када их укомбинујемо, можемо добити глас који је јасан као глас нашег сурогата-говорника, а то је особа од које смо позајмили филтер, и који је сличан по идентитету нашем циљаном говорнику. Толико је једноставно. То је наука у позадини нашег рада.
So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.
Када једном то имате на уму, како приступате стварању овог гласа? Па, морате да пронађете некога ко је вољан да буде сурогат. То није страшна ствар. Да бисте били донатор сурогат, треба само да изговорите од неколико стотина до пар хиљада израза. Процес је отприлике овакав.
(Video) Voice: Things happen in pairs.
(Видео) Глас: Ствари се дешавају у пару.
I love to sleep.
Волим да спавам.
The sky is blue without clouds.
Небо је плаво, без облака.
RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.
РП: Сада ће овако наставити око три или четири сата, а идеја није да она каже све што ће циљана особа желети да каже, већ је идеја да се покрију све различите комбинације звукова који се јављају у језику. Што више говора имате, имаћете и глас који боље звучи. Када једном имате ове снимке, оно што треба да урадимо је да рашчланимо ове снимке у мале делове говора, у гласовне комбинације од једног или два гласа, некада чак и целе речи, које ће почети да стварају низ података или датотеку. Назваћемо ову датотеку гласовном банком. Предност ове гласовне банке је да из ње, сада можемо рећи било коју нову фразу, као што је „волим чоколаду“, а сви треба да могу да кажу то, претражимо базу података и пронађемо све неопходне сегменте да бисмо изговорили ову фразу.
(Video) Voice: I love chocolate.
(Видео) Глас: Волим чоколаду.
RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.
РП: Дакле, то је синтеза говора. Зове се конкатенативна синтеза и то користимо. То нису новине. Новина је начин на који чинимо да звучи као ова млада жена.
This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.
Ово је Саманта. Упознала сам је када је имала девет година, а отада смо мој тим и ја покушавали да створимо персонализован глас за њу. Прво смо морали да нађемо донатора-сурогата, а затим је Саманта морала да произведе неке изразе. Она углавном може да произведе гласове који су налик самогласницима, али то је довољно да издвојимо карактеристике њеног извора. Следећи корак је најбоље описан кроз аналогију моје ћерке; она има шест година. Она то назива „мешање боја да се гласови обоје“. Предивно је. Управо је то. Самантин глас је налик концентрованом узорку црвене боје за храну коју можемо да убризгамо у снимак њеног сурогата да бисмо добили розикаст глас баш као овај.
(Video) Samantha: Aaaaaah.
(Видео) Саманта: Аааааах.
RP: So now, Samantha can say this.
РП: Сада, Саманта може да каже ово.
(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.
(Видео) Саманта: Овај глас је само за мене. Не могу да дочекам да користим свој нов глас са пријатељима.
RP: Thank you. (Applause)
РП: Хвала вам. (Аплауз)
I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.
Никада нећу заборавити нежни осмех који јој се разлио по лицу када је чула тај глас по први пут. Постоји неколико милиона људи широм света као Саманта, милиони, а тек смо загребали по површини. До сада смо учинили да имамо неколико говорника-сурогата широм Сједињених Држава који су донирали своје гласове, а користили смо их да бисмо направили неколико првих персонализованих гласова. Ипак, има још толико посла који треба да обавимо. За Саманту, њен сурогат потиче са средњег дела Запада, непозната особа која јој је подарила глас. Као научник, веома сам узбуђена што могу да изнесем овај рад из лабораторије коначно у стварни свет, да може да утиче на њега. Следеће што желим да поделим са вама је моја замисао да овај рад досегне нови ниво. Замишљам цео свет донатора-сурогата из свих подручја живота, различите грађе, старости, који се уједињују у овом гласовном подухвату да људима дају гласове који су једнако разнобојни као и њихове личности. Да би се то учинило као први корак, саставили смо овај вебсајт организације „Вокалиди“ као начин да се удруже они који желе да нам се придруже као донатори гласова, као стручни донатори, на било који начин, како би ова визија постала реалност.
They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.
Кажу да давање крви може да спаси живот. Па, давање вашег гласа може да промени животе. Све што нам је потребно је неколико сати говора говорника-сурогата и само један самогласник од нашег циљаног говорника да бисмо створили јединствен гласовни идентитет.
So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.
Дакле, то је наука која је иза нашег рада. Желим да завршим враћањем на људску страну која је заиста инспирација за овај рад. Пре око пет година створили смо свој први глас за малог дечака по имену Вилијам. Када је његова мајка први пут чула овај глас, рекла је: „Тако би Вилијам звучао да може да прича.“ Затим сам видела Вилијама да куца поруку на свом уређају. Запитала сам се шта мисли. Замислите да идете унаоколо са туђим гласом девет година и да коначно нађете сопствени глас. Замислите то.
This is what William said: "Never heard me before."
Ово је Вилијам рекао: „Никада пре овога нисам чуо себе.“
Thank you.
Хвала вам.
(Applause)
(Аплауз)