Rupal Patel: Synthetic voices, as unique as fingerprints

I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.

من امروز می خواهم درباره این جنبه قدرتمند و اساسی از اینکه کی هستیم، صحبت کنم: صدای ما. هر یک از ما صدای منحصر به فرد خود را داریم که منعکس کننده سن، اندازه حتی شیوه زندگی و شخصیت ما است. به گفته لانگ فلو شاعر "صدای انسان عضو روح است". به عنوان یک محقق گفتار؛ من شیفته چگونگی تولید صدا هستم، و من ایده ای در مورد چگونگی مهندسی صدا دارم. این چیزی است که دوست دارم با شما به اشتراک بگذارم.

I'm going to start by playing you a sample of a voice that you may recognize.

من می خواهم با اجرای یک نمونه صدا برای شما شروع کنم، صدایی شما ممکن است بشناسید.

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

(صدای ضبط) استفان هاوکینگ: "من فکر می کردم منظورم کاملا واضح باشد."

Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.

روپال پاتل: صدای پروفسور استفان هاوکینگ بود. چیزی که ممکن است شما ندانیداین است که شاید همین صدای توسط این دختر کوچک نیز استفاده شود که به علت شرایط عصبی قادر به صحبت نیست. در حقیقت، تمام این افراد ممکن است از صدای مشابهی استفاده کنند، و این مسئله به این علت است که تنها موارد انتخاب کمی در دسترس است. فقط در آمریکا، ۲/۵ میلیون آمریکایی وجود دارد که قادر به صحبت نیستند، و بسیاری از آنها از وسایل کامپیوتری برای ارتباط برقرار کردن استفاده می کنند. هم اکنون میلیون ها فرد در سراسر جهان هستند که از صداهای عمومی استفاده می کنند، از جمله صدای پروفسور هاوکینگ که از صدایی با لهجه آمریکایی استفاده می کند. این کمبود ساخت صداهای مصنوعی برای هر فرد زمانی واقعا اهمیتش برای من مشخص شد که در کنفرانس تکنولوژی کمک رسان بودم چند سال قبل و به یاد می آورم که در تالار نمایش راه می رفتم و یک دختر کوچک و یک مرد بالغ را دیدم که با استفاده از دستگاهایشان با هم گفتگو می کردند، دستگاه های مختلف، اما صدای یکسان. و من به اطراف نگاه کردم و دیدم این مسئله در تمام اطراف من رخ می دهد، به معنی واقعی کلمه صدها نفر از تعداد کمی صدا استفاده می کردند، صداهایی که مناسب بدن و شخصیت آنها نبود. ما نمی توانیم تصور کنیم که اعضای مصنوعی یک مرد بالغ برای یک دختر کوچک متناسب باشد. بنابراین چرا صدای مصنوعی یکسانی را برای آنها تصور می کنیم؟ این مسئله واقعا من را به فکر واداشت و تصمیم گرفتم کاری در آن باره انجام دهم.

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

من حالا می خواهم یک نمونه از صدای فردی که، در واقع دو نفر، که ناهنجاری گفتاری شدید دارند را برای شما پخش کنم. از شما می خواهم گوش کنید که صدای آنها چطور به نظر می رسد. آنها دارند سخن یکسانی را می گویند.

(First voice)

(صدای اول)

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(صدای دوم) شما احتمالا نفهمیدید که آنها چه گفتند، اما امیدوارم که شما هویت صوتی منحصربه فرد آنها را شنیده باشید.

So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.

بنابراین چیزی که در مرحله بعد خواستم انجام دهم این است که خواستم بفهمم که چطور ما می توانیم این توانایی های صوتی باقی مانده را کنترل کنیم و تکنولوژی را بسازیم که قابل انطباق برای نیاز آنها باشد، صداهایی که بتواند برای نیاز آنها قابل تغییر باشد. بنابراین من علاقه‌ام را به همکارم، تیم بانل نشان دادم. دکتر بانل یک متخصص در ساخت گفتار است و کاری که انجام می دهد ساخت صداهای شخصی سازی شده برای افراد است که این کار را با جمع آوری نمونه های از پیش ضبط شده صدای افراد و بازسازی صدایی برای آنها انجام می دهد. اینها افرادی هستند که بعدها در زندگی صدایشان را از دست داده بودند. ما نعمت نمونه های صداهای از پیش ضبط شده گفتار را نداشتیم برای افرادی که با ناهنجاری های گفتاری به دنیا آمده اند اما فکر کردم باید راهی باشد برای مهندسی معکوس یک صدا از هر چند مقداری اندکیکه باقی مانده است.

So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.

بنابراین تصمیم گرفتیم دقیقا همین کار را بکنیم. ما کار خود را با یافته های کمی از بنیاد ملی علوم آغاز کردیم تا صداهای دستساز مخصوص این افراد را بسازیم که از هویت صوتی منحصر به فرد آنها گرفته شده باشد. ما این پروژه را وکالید یا وکال آی. دی نامیدیم برای هویت صوتی.

Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.

حالا قبل از اینکه من وارد جزئیاتی شوم که چطور این صدا ساخته شده است و بگذارم این صدا را گوش دهید، لازم است یک درس واقعا سریع از علم گفتار به شما بدهم. خب،ابتدا، ما می دانیم که صدا در طی مسیر رشد به طور چشمگیری تغییر می کند. صدای بچه ها از نوجوانان متفاوت است و صدای نوجوانان از افراد مسن متفاوت می باشد. همه ما این مسئله را تجربه کرده ایم. حقیقت شماره دو این است که گفتار ترکیبی از منبع است که منبع ارتعاشات تولید شده از جعبه صدا است، که سپس این ارتعاشات به بقیه سیستم صوتی رانده می شوند. محفظه هایی در سر و گردن شما وجود دارد که ارتعاش می کنند و آنها در واقع صدای منبع را فیلتر می کنند تا حروف بی صدا و صدا دار تولید شوند. بنابراین ترکیب منبع و فیلتر، روشی است که ما گفتار را تولید می کنیم. و این مسئله در هر فرد رخ می دهد.

Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.

حالا، من قبلا به شما گفتم که یک قسمت خوب از کارم را صرف فهمیدن و مطالعه کردن مشخصه های منبع افرادی با ناهنجاری های گفتاری شدید کردم، و چیزی که فهمیدم این است که با وجود اینکه فیلتر این افراد آسیب دیده بود، آنها قادر بودند منبع خود را تنظیم کنند: زیر و بمی صدا، بلندی، سرعت صدایشان. به این مسئله الگو و ریتم صدا می گویند، و من سالها مستندسازی کرده‌ام که توانایی الگو و ریتم صدای این افراد حفظ می شود. بنابراین وقتی فهمیدم که آن نشانه نیز برای هویت صحبت کننده مهم هستند، این ایده را داشتم چرا ما منبع را از فردی که می خواهیم صدا، شبیه به صدای او باشد نگیریم زیرا منبع آنها حفظ شده است چرا فیلتر را از فردی که حدودا سن و اندازه مشابهی دارد، قرض نگیریم زیرا آنها می توانند گفتار را واضح و شمرده سازند و سپس آنها را ترکیب کنیم؟ زیرا وقتی ما آنها را مخلوط کنیم می توانیم به صدایی به واضحی سخن گویان جایگزین مان برسیم -فردی که ما فیلتر را از او قرض گرفتیم- و ماهیت آن به سخن گوی هدفمان شبیه است. مسئله به همین سادگی است. این مسئله علمی پشت چیزی است که ما انجام دادیم.

So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.

بنابراین وقتی شما این مسئله را در نظر داشته باشید شما چطور ساخت این صدا را شروع می کنید؟ خب شما باید فردی را پیدا کنید که تمایل داشته باشد فرد جانشین باشد. این مسئله چیز ناخوشایندی نیست. یک دهنده جانشین بودن تنها نیازمند این است که شما چند صد تا چند هزار سخن را بگویید. این فرآیند همانند چیزی شبیه به این پیش می رود

(Video) Voice: Things happen in pairs.

چیزها بصورت جفت اتفاق می افتند

I love to sleep.

من دوست دارم بخوابم

The sky is blue without clouds.

آسمان آبی بدون ابر است.

RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.

حالا او به همین صورت برای سه تا چهار ساعت ادامه می دهد و تصور این نیست که او هر چیزی را بگوید که فرد هدف می خواهد بگوید. بلکه تصور این است که تمام ترکیب های مختلف صداها که در یک زبان اتفاق می افتد، پوشش داده شود. هر چه شما گفتار بیشتری داشته باشید صدای بهتری را خواهید داشت. وقتی که شما این صداهای ضبط شده را داشته باشید چیزی که ما باید انجام دهیم این است که باید این صداهای ضبط شده را به قطعات کوچک گفتار تجزیه کنیم ترکیب یک-یا دو صدا گاهی حتی تمام کلمات که شروع به جمع کردن یک مجموعه داده ها یا یک پایگاه داده می‌کند. ما قصد داریم این پایگاه داده را بانک صدا بنامیم. حالا توانایی بانک صدا این است که از این بانک صدا حالا می توانیم هر سخن جدیدی را بگوییم مثل " من شکلات دوست دارم." هر کس نیاز دارد بتواند این جمله را بگوید. جستجو در آن پایگاه داده و پیدا کردن تمام بخش های لازم برای گفتن آن سخن.

(Video) Voice: I love chocolate.

(ویدیو) صدا: من شکلات دوست دارم

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

بنابراین این ساخت گفتار است. این مسئله ساخت الحاقی نام دارد و این چیزی است که ما از آن استفاده می کنیم. این مسئله قسمت جدیدی نیست. چیزی که جدید است، روشی است که ما آ نرا شبیه صدای این دختر جوان کردیم.

This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.

این سامانتا است. من او را وقتی 9 ساله بود ملاقات کردم و از آن به بعد تیم من و من تلاش کردیم برای او یک صدای شخصی سازی شده بسازیم. ما اول مجبور بودیم یک دهنده جانشین پیدا کنیم و سپس ما مجبور بودیم از سامانتا بخواهیم چند نطق تولید کند. چیزی که او می تواند تولید کند اکثرا صداهایی شبیه به حروف صدا دار است اما همان برای ما کافی بود تا مشخصه های منبع او را استخراج کنیم چیزی که بعدا رخ می دهد به بهترین صورت با قیاس دختر من توصیف می شود. او شش سال دارد. او این مسئله را مخلوط رنگ ها برای رنگ آمیزی صداها می خواند. آن زیبا است. این مسئله واقعا همین است. صدای سامانتا شبیه یک نمونه غلیظ از رنگ خوراک قرمزی است که می توانیم آن را داخل صدای ضبط شده جانشین او بریزیم تا یک صدای صورتی دقیقا شبیه این بدست آوریم.

(Video) Samantha: Aaaaaah.

(ویدیو) سامانتا: آآآآآ

RP: So now, Samantha can say this.

RP: بنابراین حالا، سامانتا می تواند این را بگوید

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

(ویدیو) سامانتا: این صدا فقط برای من است. من نمی توانم صبر کنم تا از صدای جدیدم با دوستانم استفاده کنم.

RP: Thank you. (Applause)

متشکرم (تشویق)

I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.

من هرگز آن لبخند ملایمی را که در سراسر صورت او گسترده شدفراموش نمی کنم وقتی او برای اولین بار آن صدا را شنید. حالا میلیون ها نفر در سراسر دنیا شبیه ساماتا وجود دارد، میلیونها نفر و ما تنها در ابتدای راه هستیم. چیزی که ما تا کنون انجام داده ایم این است که ما تعداد کمی سخن گوی جانشین از سراسر آمریکا داریم که صدایشان را اهدا کرده اند و ما از آنها استفاده کرده ایم تا تعداد کمی از صداهای شخصی سازی شده اولیه مان را بسازیم. اما کارهای بسیار بیشتری برای انجام دادن وجود دارد. برای سامانتا، جانشین او از جایی در ناحیه مرکزی آمریکا بود، یک غریبه که هدیه صدا را به او داد. و به عنوان یک محقق،بسیار هیجان زده هستم که این کار را به خارج از آزمایشگاه ببرم و نهایتا آن را به دنیای واقعی وارد کنم در نتیجه این کار می تواند تاثیری در دنیای واقعی داشته باشد. چیزی که پس از آن من می خواهم با شما به اشتراک بگذارم این است که من چه رویایی برای بردن این کار به این سطح بعدی دارم. من کل دنیایی را از دهنده های جانشین تصور می کنم از تمام موقعیت های اجتماعی، اندازه های مختلف، سن های متفاوت، که در این مسیر صدا با هم جمع شوند تا به افراد صدایی دهند که به اندازه شخصیت های آنها رنگارنگ باشد. برای انجام این کار به عنوان قدم اول، ما این سایت اینترنتی را راه اندازی کرده ایم VocaliD.org به عنوان مسیری برای جمع کردن آنهایی که می خواهند به ما بپیوندند به عنوان دهنده صدا، به عنوان اهدا کننده مهارتشان، یا هر راهی که این تصور را به واقعیت تبدیل کند.

They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.

گفته می شود که دادن خون می تواند زندگی ها را نجات دهد. خب، دادن صدایتان می تواند زندگی ها را تغییر دهد. تمام چیزی که ما نیاز داریم چند ساعت گفتار از سخن گوی جانشین ما است، و به مقدار کمی به اندازه یک حرف باصدا از سخن گوی هدفمان تا یک هویت صدای منحصربه فرد بسازیم.

So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.

بنابراین این دانش پشت چیزی است که ما انجام می دهیم. من می خواهم سخنم را پایان دهم با برگشتن به جنبه انسانی که واقعا الهام بخش این کار بود. حدود پنج سال قبل، ما صدای بسیار اولیه ای خود را برای یک پسر کوچک به نام ویلیام ساختیم. وقتی که مادرش اولین بار این صدا را شنید گفت، " این چیزی است که شبیه صدای ویلیام می بود اگر او قادر بود حرف بزند." و سپس من دیدم که ویلیام دارد پیامی را روی دستگاهش تایپ می کند. من شگفت زده شدم، او داشت به چه فکر می کرد؟ تصور کنید صدای فرد دیگری را به دوش بکشید برای نه سال و نهایتا صدای خودتان را پیدا کنید. این را تصور کنید.

This is what William said: "Never heard me before."

این چیزی است که ویلیام گفت: "قبلا هرگز صدای من را نشنیده بودید."

Thank you.

متشکرم

(Applause)

(تشویق)

I'm going to start by playing you a sample of a voice that you may recognize.

من می خواهم با اجرای یک نمونه صدا برای شما شروع کنم، صدایی شما ممکن است بشناسید.

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

(صدای ضبط) استفان هاوکینگ: "من فکر می کردم منظورم کاملا واضح باشد."

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(First voice)

(صدای اول)

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(Video) Voice: Things happen in pairs.

چیزها بصورت جفت اتفاق می افتند

I love to sleep.

من دوست دارم بخوابم

The sky is blue without clouds.

آسمان آبی بدون ابر است.

(Video) Voice: I love chocolate.

(ویدیو) صدا: من شکلات دوست دارم

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

(Video) Samantha: Aaaaaah.

(ویدیو) سامانتا: آآآآآ

RP: So now, Samantha can say this.

RP: بنابراین حالا، سامانتا می تواند این را بگوید

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

(ویدیو) سامانتا: این صدا فقط برای من است. من نمی توانم صبر کنم تا از صدای جدیدم با دوستانم استفاده کنم.

RP: Thank you. (Applause)

متشکرم (تشویق)

This is what William said: "Never heard me before."

این چیزی است که ویلیام گفت: "قبلا هرگز صدای من را نشنیده بودید."

Thank you.

متشکرم

(Applause)

(تشویق)

Rupal Patel: Synthetic voices, as unique as fingerprints

Rupal Patel: Synthetic voices, as unique as fingerprints

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice