I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.
Chciałabym dziś opowiedzieć o potężnym i podstawowym aspekcie tego, kim jesteśmy: naszym głosie. Każdy z nas ma unikalny głos odzwierciedlający nasz wiek, rozmiary, nawet styl życia i osobowość, jak rzekł poeta Longfellow: "Ludzki głos to narząd duszy". Jako badaczka mowy jestem zafascynowana tym, w jaki sposób powstaje głos i mam pomysł na temat tego, jak może być obrabiany. Tym właśnie chcę się z wami podzielić. Zacznę od odtworzenia próbki głosu, który być może rozpoznacie.
I'm going to start by playing you a sample of a voice that you may recognize.
(Nagranie) Stephen Hawking: "Wydaje mi się,
(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."
że to, co miałem na myśli, jest całkiem oczywiste".
Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.
Rupal Patel: Był to głos profesora Stephena Hawkinga. Być może nie wiecie, że ten sam głos może być również użyty przez tą małą dziewczynkę, która nie może mówić z powodu choroby neurologicznej. Każda z tych osób może używać tego samego głosu, ponieważ jest to jedno z niewielu dostępnych rozwiązań. W samych Stanach jest 2,5 miliona Amerykanów, którzy nie mogą mówić. Wielu używa do komunikacji skomputeryzowanych urządzeń. Miliony osób na świecie używają generowanych głosów, włącznie z profesorem Hawkingiem, który używa głosu z amerykańskim akcentem. Brak indywidualności syntetycznego głosu bardzo mnie uderzył, gdy kilka lat temu byłam na konferencji technologii pomocniczej, pamiętam, że wchodząc do sali pokazowej widziałam małą dziewczynkę i dorosłego mężczyznę rozmawiających przy użyciu urządzeń, różnych urządzeń, lecz z tym samym głosem. Rozejrzałam się dookoła i zobaczyłam, że wszędzie dosłownie setki osób używają garstki głosów, które nie pasują do ich ciała ani osobowości. Nie odważylibyśmy się dać małej dziewczynce protezy kończynowej dorosłego mężczyzny. Dlaczego więc mają mieć ten sam syntetyczny głos? Uderzyło mnie to, chciałam coś z tym zrobić. Odtworzę wam teraz próbkę
I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.
dwojga ludzi, którzy mają poważne zaburzenia mowy. Chcę, byście posłuchali jak brzmią. Wypowiadają oni tę samą kwestię. (Pierwszy głos)
(First voice)
(Drugi głos)
(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.
Prawdopodobnie nie zrozumieliście, o czym mówią, jednak mam nadzieję, że słyszeliście ich unikalne tożsamości głosów. Chciałam więc następnie dowiedzieć się, jak można wykorzystać
So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.
ich szczątkowe zdolności wokalne do opracowania technologii, która byłaby do nich dostosowana, głosów, które byłyby dostosowane do nich. Udałam się do mojego współpracownika, Tima Bunnella. Dr Bunnell jest ekspertem w syntezie mowy i ostatnimi czasy opracowywał spersonalizowane głosy dla ludzi poprzez składanie uprzednio nagranych próbek ich głosu i rekonstruowanie go. To ludzie, którzy stracili głos, ale wcześniej posługiwali się mową. Nie mamy tego luksusu w postaci uprzednio nagranych próbek mowy dla ludzi urodzonych z zaburzeniami mowy. Jednak uważam, że musi być sposób by opracować głos z tego, co jeszcze pozostało. Zdecydowaliśmy więc to zrobić.
So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.
Dostaliśmy dofinansowanie z Narodowej Fundacji na Rzecz Nauki, by utworzyć unikalne głosy, które odzwierciedlałyby unikalną tożsamość wokalną tych osób. Projekt ten nazywamy VocaliD lub vocal I.D., czyli tożsamością głosową.
Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.
Zanim zagłębię się w szczegóły sposobu produkcji głosu i pozwolę wam go posłuchać, muszę wygłosić naprawdę krótką lekcję na temat mowy, ok? Po pierwsze wiemy, że głos zmienia się dramatycznie wraz z rozwojem. Dzieci brzmią inaczej niż nastolatkowie, którzy brzmią inaczej niż dorośli. Wszyscy tego doświadczyliśmy. Po drugie mowa to kombinacje źródła, którym są wibrację generowane w krtani, które przemieszczają się przez resztę dróg głosowych. Elementem wibrującym jest wnętrze głowy i szyi, w którym dźwięk źródłowy jest filtrowany, by utworzyć samogłoski i spółgłoski. Zatem ta kombinacja źródła i filtra to sposób powstawania mowy. Dzieje się tak u każdego. Mówiłam wcześniej, że znaczną część kariery spędziłam,
Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.
badając źródła charakterystycznych cech głosu osób z poważnymi zaburzeniami mowy. Odkryłam, że choć ich filtry były osłabione, nadal byli zdolni do modulowania źródła: wysokości, natężenia, szybkości ich głosu. Nazywa się to prozodią i od lat dokumentuję fakt, że prozodyczne zdolności tych osób są zachowane. Gdy zrozumiałam, że te same elementy są ważne dla tożsamości rozmówcy, wpadłam na pomysł. Dlaczego by nie wziąć źródła od osoby, dla której tworzymy głos, ponieważ jest ono zachowane, i pożyczyć filtr od kogoś podobnego wiekiem i budową ciała, kto potrafi artykułować mowę, i wymieszać to razem? Gdy je pomieszamy, dostaniemy głos tak czysty, jak naszego zastępczego mówcy, osoby od której pożyczyliśmy filtr, jak również podobny tożsamością do naszego celu. To takie proste. To nauka stojąca za naszym projektem. Gdy masz to na uwadze, w jaki sposób zbudujesz ten głos?
So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.
Musisz znaleźć kogoś, kto chciałby zostać dawcą. Nie jest to takie groźne. Bycie dawcą wymaga jedynie wypowiedzenia od kilkuset do kilku tysięcy wypowiedzi. Proces ten wygląda mniej więcej tak. (Wideo) Głos: Nieszczęścia chodzą parami.
(Video) Voice: Things happen in pairs.
Kocham spać.
I love to sleep.
Niebo bez chmur jest niebieskie.
The sky is blue without clouds.
RP: Będzie ona mówić w ten sposób
RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.
przez około trzy-cztery godziny. Nie chodzi o to, żeby powiedziała wszystko, co będzie chciał powiedzieć cel, lecz by stworzyć wszystkie różne kombinacje dźwięków występujących w naszym języku. Im więcej masz mowy, tym lepiej brzmiący głos otrzymamy. Gdy mamy już nagrania, musimy przeprowadzić analizę składni tych próbek i stworzyć strzępki mowy, jedno-lub dwudźwiękowe kombinacje, czasem całe słowa, po czym stworzyć zestaw lub bazę danych. Tę bazę danych nazywamy bankiem głosu. Siła banku głosu tkwi w tym, że korzystając z niego, możemy wypowiedzieć nowe kwestie, na przykład "Kocham czekoladę". To się przyda każdemu. Trzeba przedrzeć się przez bazę danych i znaleźć wszystkie segmenty niezbędne, by wypowiedzieć tę kwestię.
(Video) Voice: I love chocolate.
(Wideo) Głos: Kocham czekoladę.
RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.
RP: Oto synteza głosu. Zwana jest syntezą połączeniową i w ten sposób jest używana. To podejście nie jest nowatorskie. Nowatorskie jest to, jak stworzyliśmy głos tej młodej kobiety. Oto Samantha.
This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.
Spotkałam ją, gdy miała 9 lat. Od tamtej pory ja i mój zespół próbowaliśmy zbudować dla niej spersonalizowany głos. Najpierw musieliśmy znaleźć dawcę, potem Samantha musiała stworzyć kilka wypowiedzi. To, co tworzyła, to głównie samogłoskowe dźwięki, jednak wystarczyło to do ekstrakcji charakterystyki jej źródła. Następnie jest coś, co najlepiej opisała moja sześcioletnia córka. Nazywa to mieszaniem kolorów do malowania głosów. To piękne, dokładnie tak jest. Głos Samanthy jest jak skupiona próbka czerwonego barwnika, który dodajemy do nagrań jej dawcy, żeby uzyskać taki oto różowy głos. (Wideo) Samantha: Aaaaaa.
(Video) Samantha: Aaaaaah.
RP: Samantha może teraz powiedzieć to.
RP: So now, Samantha can say this.
(Wideo) Samantha: Ten głos jest tylko dla mnie.
(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.
Nie mogę się doczekać rozmowy z moimi przyjaciółmi. RP: Dziękuję. (Brawa)
RP: Thank you. (Applause)
Nigdy nie zapomnę łagodnego uśmiechu,
I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.
który pojawił się na jej twarzy, gdy usłyszała ten głos pierwszy raz. Na świecie są miliony ludzi takich jak Samantha, a my dopiero co rozpoczęliśmy ten projekt. Do tej pory uzyskaliśmy kilkoro dawców z całych Stanów, którzy udostępnili swój głos, dając możliwość jego użycia do zbudowania pierwszych spersonalizowanych głosów. Jednak jest wiele pracy do zrobienia. Dawczyni głosu Samanthy pochodzi ze środkowych stanów. To nieznajoma, która podarowała jej głos. Jako naukowiec jestem podekscytowana przeniesieniem pracy z laboratorium do prawdziwego świata, by miała ona wpływ na świat realny. Opowiem wam teraz, jak wyobrażam sobie przeniesienie tej pracy na wyższy poziom. Wyobrażam sobie świat dawców z różnych dziedzin życia, w różnym wieku, o różnych rozmiarach, zrzeszających się w tym projekcie oferowania ludziom głosów, które są tak kolorowe, jak ich osobowości. By wykonać pierwszy krok, założyliśmy stronę VocaliD.org. Jest to sposób na zebranie tych, którzy chcieliby stać się dawcami głosu, zaoferować swoje doświadczenie, lub w jakikolwiek sposób przyczynić się do realizacji tej wizji. Mówi się, że oddawanie krwi ratuje życie.
They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.
Oddawanie głosu może zmienić życie. Potrzebujemy jedynie kilku godzin mowy od mówcy zastępczego, i kilku samogłosek od naszego docelowego mówcy, by stworzyć unikalną tożsamość głosową. Oto kryjąca się za tym nauka.
So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.
Na koniec wrócę do strony ludzkiej, która jest prawdziwą inspiracją dla tej pracy. Około 5 lat temu stworzyliśmy pierwszy głos dla małego chłopca o imieniu William. Gdy jego mama po raz pierwszy usłyszała ten głos, powiedziała: "Tak brzmiałby głos Williama, gdyby potrafił mówić". Patrząc, jak William pisze wiadomość na swoim urządzeniu, zastanawiałam się, o czym on myśli. Wyobraźcie sobie używania czyjegoś głosu przez dziewięć lat i odnalezienie w końcu własnego. Wyobraźcie to sobie. Oto, co powiedział William:
This is what William said: "Never heard me before."
"Nigdy przedtem siebie nie słyszałem".
Thank you.
Dziękuję.
(Applause)
(Brawa)