Днес бих искала да говоря за един силен и фундаментален аспект от нашата същност: гласа ни. Всеки от нас има уникален глас, който отразява възрастта ни, размера дрехи, дори стила ни на живот и личността ни. Както е казал поетът Лонгфелоу " човешкият глас е орган на душата". Като учен, специалист по говора, съм удивена от това как гласът се "произвежда" и имам идея как може да бъде направено това. Именно това искам да споделя с вас.
I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.
Ще започна с пускането на примерен глас, който може би ще разпознаете.
I'm going to start by playing you a sample of a voice that you may recognize.
( Запис ) Стивън Хоукинг: "Смятах, че е ясно какво имам предвид".
(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."
Рупал Пател: Това беше гласът на проф. Стивън Хоукинг. Това, което може би не знаете, е че същият глас може да бъде използван от това малко момиче, което не може да говори заради неврологично заболяване. Всъщност, всички тези хора могат да използват един и същи глас защото има съвсем малко налични опции. Само в САЩ има 2.5 милиона американци, които не могат да говорят Много от тях използват компютърни устройства за комуникация. Това прави милиони хора в световен мащаб, които използват компютърно генерирани гласове, включително проф. Хоукинг, който използва глас с американски акцент. Липсата на идентичност в синтетичния глас ми направи впечатление преди няколко години, когато бях на конференция за асистирана технология. Спомних си как се разхождах в една изложбена зала и видях малко момиче и възрастен мъж, които си говореха посредством техните помощни средства, различни помощни средства, но с еднакви гласове. Огледах се наоколо и видях, че това се случва навсякъде около мен, буквално стотици хора, използващи няколко гласа, гласове които не подхождаха на осанката им или на личността им. Не сме си мечтали да накараме малко момиченце да говори като възрастен мъж с протези. Защо тогава да го правим? Това наистина ме трогна и поисках да направя нещо по въпроса.
Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.
Ще Ви пусна един аудио пример на двама души, които имат сериозни говорни нарушения. Бих искала да чуете как звучат. Те ще произнесат една и съща дума.
I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.
( Първи глас)
(First voice)
(Втори глас) Вероятно не разбрахте какво казаха, но се надявам чухте уникалните им гласови идентичности.
(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.
След това исках да разбера как можем да използваме тези вокални способности, за да създадем технология, която да се изработи съобразно тях; да се създадат гласове, които да им пасват. Така се свързах с колегата ми Тим Бънел. Др. Бънел е експерт по синтез на говора, и това, което той направи беше да създаде персонализирани гласове за хора като компилира по-ранни записи на гласовете им и конструира подходящи за тях гласове. Тези хора бяха загубили гласа си на по-късен етап от живота си. При хората, родени с говорни аномалии, нямахме шанса да получим предварително записания им глас. Мислех си, че трябва да има начин да извлечем гласа от малкото, което е останало.
So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.
Решихме да направим точно това. Получихме малко финансова подкрепа от Националната научна фондация, за да създадем уникални гласове, които улавят персоналните вокални идентичности. Наричаме този проект "Вокална Ай Ди", което идва от вокална идентичност.
So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.
Преди да обясня в детайли как се "прави" глас и да Ви го пусна да го чуете, искам да Ви дам един бърз урок за науката за говора. Ок? Първо, ние знаем, че гласът се променя драматично с развитието ни. Децата говорят различно от тийнеджърите, които пък звучат различно от възрастните. Всички сме го преживели. Второ, говорът е комбинация от вибрациите, генерирани в нашата гласова кутия, които след това достигат до остатаналия вокален тракт. Това са кухините на врата и главата, които вибрират и филтрират този звук, за да произвеждат съгласни и гласни. Посредством комбинирането на ресурс и филтър ние създаваме гласа. Това се случва при един човек.
Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.
По-рано Ви казах, че през по-голямата част от кариерата си се стремях да разбера и изуча ресурсните характеристики на хора с тежки говорни аномалии. Открих следното. Въпреки че техните филтри не са увредени, те също могат да променят характеристиките си: височината на тона, темпото, силата на гласа. Нарича се прозодия. Документирам я от години. Прозодичните способности на тези хора са запазени. Когато осъзнах, че те са важни за идентичността на говорещия, ме осени една идея. Защо не вземем ресурса от човека, подобен на чийто глас искаме да създадем, защото той е запазен и непроменен, да вземем филтъра от някого на същата възраст и телесложение, защото те могат да свържат речта и тогава да ги смесим? Можем да ги смесим, да получим глас, ясен като на нашия сурогат, това е човекът, от който сме взели филтъра и е сходен по идентичност с нашия целеви обект. Просто е. Това е науката зад това, което правим.
Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.
Имайки това впредвид, как ще процедирате, за да създадеш глас? Трябва да намерите някой, който да се съгласи да стане сурогат. Не е чак толкова страшно нещо. За да си сурогатен донор е необходимо да изговориш няколко стотин или няколко хиляди словосъчетания Процесът изглежда така:
So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.
(Видео) Глас: Нещата се случват по двойки.
(Video) Voice: Things happen in pairs.
Обичам да спя.
I love to sleep.
Небето е ясно, без облаци.
The sky is blue without clouds.
РП: Сега тя ще трябва да продължи така три или четири часа. Идеята не е тя да изговори всичко, което целевият ни обект ще каже. Целта е да се покрият всички различни комбинации от звуци, които се срещат в езика. Колкото повече реч имаме, толкова по-вече гласове ще създадем. След като вече имаме всички тези записи, това, което трябва да направим, е да ги разделим на съвсем мънички частици на речта, на комбинации от по 1, 2 звука, а понякога и цели думи, които дават основата на базата ни данни. Ще наречем тази база данни гласова банка. Силата на гласовата банка е в това, че от нея можем да извадим каквито и да е нови звуци като например: "Обичам шоколад", всеки трябва да може да го изговори - търсим из базата данни и намираме всички необходими сегменти, за изговаряне на това словосъчетание.
RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.
(Видео) Глас: Обичам шоколад.
(Video) Voice: I love chocolate.
РП: Това е гласов синтез. Нарича се свързан синтез и именно него използваме. Но това не е най-интерсното. По-интересното е как успяхме да направим звука по-младежки.
RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.
Това е Саманта. Срещнах я, когато беше на 9 г. Оттогава с екипа ми се опитваме да ѝ създадем персонализиран глас. Първо трябваше да намерим сурогатен донор, а след това да накараме Саманта да произнесе нещо. Това, което тя може да изговори са само звуци, подобни на гласни букви, но е достатъчно за нас за да извлечем характерните ѝ гласови особености. Това, което се случва след това се описва най-добре с една аналогия на 6 г. ми дъщеря. Тя го нарича "смесване на цветове за нарисуване на гласове". Красиво е. И е точно това. Гласът на Саманта е като концентрирана проба от червен оцветител, който можем да смесим със записите на нейния сурогат, за да получим розов глас като този.
This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.
(Видео) Саманта: Ааааах
(Video) Samantha: Aaaaaah.
РП: А сега, Саманта можеш да го кажеш и ти.
RP: So now, Samantha can say this.
( Видео) Саманта: Този глас е само за мен. Нямам търпение да го използвам пред приятелите си.
(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.
РП: Благодаря. (Аплодисменти)
RP: Thank you. (Applause)
Никога няма да забравя усмивката, която изгря на лицето ѝ, когато чу гласа си за първи път. Сега по света има милиони хора като Саманта, а нашата дейност е едва в началната си фаза. До момента имаме няколко сурогати от цяла Америка, които дариха гласовете си. Използвахме ги за да създадем първите си няколко персонализирани гласове. Има още толкова много работа да се свърши. Сурогатът на Саманта например е една непозната от средния Запад, която ѝ даде гласа си. Като учен съм изключително развълнувана да "изведа" работата си извън лабораторията, в реалния свят, така че да имам истински принос. Следващото, което искам да споделя с Вас е как смятам да доведа работата си до следващото ниво. Представям си един цял свят със сурогатни донори, с различна възраст, пол, тегло, даряващи гласа си, за да дадат на други хора гласове, които са толкова цветисти колкото личностите им. За целта, първата стъпка беше да направим този уебсайт vocalid.org, за да свържем всички тези хора, които искат да се присъединят към нас като донори на гласове, като експерти, за да направим визията си реалност.
I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.
Казват, че кръводаряването може да спаси живот. Даряването на глас пък може да промени живот. Нуждаем се само от няколко часа запис на говора на нашия сурогат и малко глас от страна на целевия ни обект, за да създадем уникална гласова идентичност.
They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.
Това е науката зад това, което правим. Искам да завърша, връщайки се обратно на хуманната страна, която е истинското вдъхновение за работата ни. Преди около 5 г., когато изобретихме първия си глас за малко момченце на име Уилям. Когато майка му за първи път чу гласа му, каза: " Точно така би звучал гласът му, ако можеше да говори." Тогава видях Уилям да пише съобщение на устройството си. Чудех се какво ли си мисли той. Представете си да сте имали нечий друг глас цели 9 години и накрая да откриете своя собствен. Представете си го.
So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.
Ето какво каза Уилям: "Никога преди не си ме чувал".
This is what William said: "Never heard me before."
Благодаря!
Thank you.
( Аплодисменти)
(Applause)