Rupal Patel: Synthetic voices, as unique as fingerprints

I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.

Hôm nay tôi xin trình bày một khía cạnh căn bản và mạnh mẽ trong mỗi chúng ta: giọng nói. Mỗi người chúng ta có một chất giọng độc đáo phản ánh tuổi tác, kích cỡ cơ thể, thậm chí phong cách sống và nhân cách của mỗi người. Thơ của Longfellow đã nói rằng: "Giọng nói là âm điệu của tâm hồn." Là nhà nghiên cứu khoa học tiếng nói, tôi bị hấp dẫn bởi cách giọng nói được cất lên, và cách nó có thể được chế tạo. Đó là câu chuyện tôi muốn chia sẻ.

I'm going to start by playing you a sample of a voice that you may recognize.

Tôi sẽ cho các bạn nghe một mẫu giọng nói mà các bạn có thế nhận ra.

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

(Băng) Stephen Hawking: "Tôi nghĩ mình đã diễn đạt khá rõ điều muốn nói."

Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.

Rupal Patel: Đó là giọng của Giáo sư Stephen Hawking. Điều quý vị có thể không biết, là giọng nói này cũng có thể được cô bé này sử dụng cô không nói được do mắc phải một bệnh thần kinh. Thực tế là, những người trên hình này có thể đang sử dụng cùng một giọng nói, đó là do họ chỉ có một số ít các lựa chọn. Tính riêng ở Mỹ, có khoảng 2,5 triệu người không thể nói, và nhiều người trong số họ sử dụng các thiết bị máy tính để giao tiếp. Có hàng triệu người trên trái đất đang sử dụng những giọng nói chung, bao gồm giọng của Giáo sư Hawking, giọng Mỹ đặc trưng. Khiếm khuyết về đặc điểm cá nhân này của giọng nói nhân tạo thực sự đã ám ảnh tôi khi tham gia một hội nghị kỹ thuật hỗ trợ cách đây vài năm, tôi còn nhớ khoảng khắc thả bộ vào sảnh hội trường và bắt gặp một cô bé con cùng một người lớn dùng thiết bị hỗ trợ để nói chuyện với nhau, thiết bị khác nhau, nhưng cùng một giọng nói. Tôi quan sát và theo dõi quanh tôi, có hàng trăm người đang dùng chỉ một vài giọng nói, những giọng nói đó không hề tương xứng với cơ thể hoặc tính cách của họ. Chưa bao giờ nghĩ ta sẽ nối tay hoặc chân giả của người trưởng thành cho một cô bé gái. Vậy tại sao lại chấp nhận sử dụng giọng nói nhân tạo như thế? Nó thực sự dày vò tôi, tôi muốn làm cái gì đó.

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

Bây giờ tôi xin mở một đoạn ví dụ của một người, thực tế là hai, mắc chứng rối loạn giọng nói nghiêm trọng. Tôi muốn các bạn chú ý lắng nghe cách họ nói. Họ đang diễn đạt cùng một ý.

(First voice)

(Giọng nói thứ nhất)

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(Giọng nói thứ 2) Bạn có thể không hiểu những gì họ nói, nhưng tôi hy vọng bạn có thể nhận ra đặc điểm riêng về giọng nói của họ.

So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.

Điều tiếp theo phải làm là, tôi muốn tìm ra cách tận dụng khả năng nói chuyện còn sót lại này và xây dựng một kỹ thuật tương hợp với họ, tạo ra giọng nói phù hợp nhất. Vì thế, tôi đã trao đổi với đồng sự, Tim Bunnell. Tiến sĩ Bunnell là chuyên gia trong lĩnh vực giọng nói nhân tạo, ông ấy đã và đang xây dựng giọng nói mang đặc điểm cá nhân bằng cách ghép những mẫu giọng nói của họ được ghi âm trước đó và tái tạo giọng cho họ. Đây là những người mất đi giọng nói trong những năm về sau của cuộc đời. Chúng ta không có những bản ghi âm tiếng nói của những người mắc bệnh bẩm sinh. Nhưng tôi nghĩ, phải có một cách khác để tạo lại giọng nói từ bất kỳ thứ gì nhỏ nhoi còn sót lại.

So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.

Cuối cùng, chúng tôi quyết định làm đúng như vậy. Bắt đầu với nguồn quỹ ít ỏi từ Quỹ Khoa học Quốc gia, để tạo ra giọng nói nhân tạo tùy chỉnh dựa trên đặc điểm từng người. Chúng tôi gọi dự án này là VocaliD hay là vocal I.D tạo tiếng nói cá nhân.

Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.

Trước khi đi vào chi tiết về việc hình thành giọng nói và để bạn có thể nghe thấy, Tôi xin nói nhanh một bài khoa học về giọng nói. Trước tiên, chúng ta đều biết giọng nói sẽ thay đổi nhiều qua quá trình phát triển. Trẻ em nói giọng khác thanh thiếu niên khác với giọng người lớn. Ai cũng đều trải qua những thời kỳ đó. Sự thật tiếp theo là giọng nói là sự kết hợp của âm nguồn, những nhịp rung được tạo ra từ hộp âm thanh, sau đó, được truyền qua phần còn lại của đường truyền tiếng. Đây là những khoang trong đầu và cổ chúng sẽ rung lên, và lọc những âm nguồn để phát ra các nguyên âm và phụ âm. Như vậy, sự kết hợp giữa âm nguồn và bộ lọc là cách mà giọng nói được phát ra. Và quá trình đó xảy ra ở từng cá nhân.

Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.

Ban nãy, tôi đã nói tôi dành nhiều thời gian và công sức để hiểu và nghiên cứu đặc điểm âm nguồn của cá nhân mắc chứng rối loạn giọng nói nghiêm trọng, điều mà tôi tìm ra là mặc dù bộ lọc bị hư hại và suy giảm, họ vẫn có thể tạo ra âm thanh nguồn: gồm cao độ, cường độ, nhịp độ gọi chung là âm điệu, tôi đã nghiên cứu trong nhiều năm thấy rằng năng lực tạo âm điệu của những người này vẫn còn được lưu giữ. Vì thế, khi nhận ra những tín hiệu này là rất quan trọng với giọng nói cá nhân, tôi đã nảy ra ý tưởng. Sao không lấy âm nguồn từ chính người cần tạo giọng nói, vì nó vẫn còn được lưu giữ, rồi mượn bộ lọc từ một người cùng tuổi và kích cỡ, vì họ có thể phát ra giọng nói rõ ràng, rồi kết hợp chúng lại? Làm thế, chúng ta có thể có được giọng nói rõ ràng như chính giọng của người nói -- người mà ta đã mượn bộ lọc-- đồng thời có đặc điểm tương tự với âm nguồn của người nói mục tiêu. Đơn giản thế thôi. Đó là cơ sở khoa học của việc chúng tôi đang làm.

So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.

Vì thế, một khi bạn hỏi, làm thế nào tạo ra giọng cho người này? Bạn phải tìm ra ai đó sẵn lòng là người thay thế. Đó không phải là một điều quá khó. Để là người tặng giọng điều bạn cần làm là nói vài trăm đến vài ngàn lời. Quá trình đó diễn ra đại loại như.

(Video) Voice: Things happen in pairs.

(Video) Giọng nói: Những thứ xảy ra cùng lúc.

I love to sleep.

Tôi muốn đi ngủ.

The sky is blue without clouds.

Bầu trời xanh không gợn chút mây.

RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.

Rupal Patel: Cô ấy sẽ tiếp tục như thế trong khoảng 3 đến 4 giờ, vấn đề không phải là cô ấy phải nói mọi thứ mà người mục tiêu sẽ nói trong tương lai, vấn đề ở đây là tạo ra tất cả những kết hợp âm có thể có trong ngôn ngữ. Càng nhiều lời nói được tập hợp, giọng được tổng hợp càng có âm điệu tốt hơn. Khi đã có những bản ghi âm thế này, điều tiếp theo là tách chúng thành những đoạn nhỏ, từ một đến hai âm kết hợp, thậm chí là toàn bộ từ và tạo thành một bộ dữ liệu. Chúng tôi gọi bộ dữ liệu này là ngân hàng giọng nói. Bạn có thể thấy sức mạnh của ngân hàng giọng nói chúng ta có thể nói bất cứ câu nào, như: "Tôi thích Sô cô la" -- mọi người đều cần phải nói thế-- chỉ cần tìm trong bộ dữ liệu để có tất cả những phân đoạn cần thiết để nói ra điều này.

(Video) Voice: I love chocolate.

(Video) Giọng nói: Tôi thích Sô Cô La.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

RP: Đó là lời nói nhân tạo được gọi là tổng hợp tập kết, cái chúng tôi đang dùng. Không có gì mới mẻ. Điều lạ là cách ta tạo ra âm điệu giống như người phụ nữ trẻ này.

This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.

Đây là Samantha. Tôi đã gặp cô lần đầu khi cô ấy 9 tuổi, và kể từ đó, nhóm của tôi đã cố gắng tạo ra giọng nói riêng cho cô ấy. Đầu tiên, chúng tôi phải tìm ra người hiến giọng nói, và sau đó, để Samantha tạo ra vài câu nói, hầu như chỉ là những nguyên âm, nhưng như vậy là đã đủ để trích xuất âm nguồn riêng của cô. Để diễn đạt một cách tốt nhất những gì xảy ra tiếp theo cần phải dùng lời của con gái tôi. Nó lên 6 tuổi. Nó gọi đó là trộn màu để vẽ nên giọng nói. Miêu tả tài tình. Chính xác là vậy. Giọng nói của Samantha giống như mẫu cô đặc của màu đỏ thực phẩm ta dùng để tô vào bản ghi âm giọng nói thay thế tạo ra chất giọng màu hồng như thế này.

(Video) Samantha: Aaaaaah.

RP: So now, Samantha can say this.

Và bây giờ, Samantha có thể nói như thế này.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

(Video) Samantha: Giọng nói này chỉ dành cho tôi. Tôi nóng lòng muốn dùng nó để nói chuyện với các bạn.

RP: Thank you. (Applause)

RP: Cảm ơn (Tiếng vỗ tay)

I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.

Tôi không bao giờ quên được nụ cười dịu dàng tỏa ra trên khuôn mặt của Samantha khi cô nghe giọng nói của mình lần đầu tiên. Hiện nay, có hàng triệu người khắp thế giới như Samantha, vâng hàng triệu, và chúng tôi chỉ mới bắt đầu hỗ trợ được phần nổi. Cho tới lúc này có một vài người hiến giọng trên khắp nước Mỹ. Chúng tôi đang sử dụng những giọng nói này để xây dựng những giọng nói cá nhân. Nhưng vẫn còn rất nhiều việc phải làm khác . Với Samantha, người hiến giọng cho cô ấy đến từ Trung Tây, một người lạ đã trao cho cô món quà quý giá là giọng nói. Là nhà khoa học, tôi háo hức đưa dự án này ra khỏi phòng thí nghiệm đến với đời thực để nó có được những tác động thực. Tôi muốn chia sẻ với các bạn tiếp theo đó là tôi đã hình dung đưa dự án này lên một tầm cao hơn như thế nào. Tôi tưởng tượng ra một thế giới gồm những người hiến tặng giọng nói từ mọi hoàn cảnh, mọi tầm vóc, mọi tuỏi tác, đến với nhau vì mục đích chung trao tặng giọng nói cho con người để cho giọng nói của họ cũng có sắc màu như chính tính cách của họ vậy. Để thực hiện điều này bước đầu tiên, chúng tôi cùng tạo một website, VocaliD.org, như là một cách tập hợp những người mong muốn hiến tặng giọng nói, cũng như kiến thức chuyên môn, hoặc bất kỳ cách nào để đưa dự án trở thành hiện thực.

They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.

Có người đã nói hiến máu có thể cứu người. Và bây giờ, trao tặng giọng nói cũng sẽ làm thay đổi cuộc đời. Tất cả những gì ta cần là vài giờ nói chuyện từ những người hiến giọng, cũng như chỉ với vài nguyên âm từ người cần giọng nói, chúng ta có thể tạo ra giọng nói cá nhân độc đáo.

So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.

Đó là cơ sở khoa học của việc chúng tôi đang làm. Tôi muốn kết thúc bằng việc trở lại nói về khía cạnh con người cảm hứng đưa chúng tôi đến với dự án này. Cách đây 5 năm, khi xây dựng giọng nói đầu tiên cho một cậu bé tên là William. Lần đầu tiên nghe được giọng nói của con mình, mẹ cậu ấy bảo, "Đây chính là giọng William nếu như nó có thể nói." Và sau đó, tôi thấy William viết tin nhắn trên máy. Tôi tự hỏi, cậu ấy đang nghĩ gì? Hãy tưởng tượng mà xem, ta mang giọng nói của một ai đó trong 9 năm ròng và cuối cùng, tìm thấy giọng nói của chính mình. Tưởng tượng thử xem.

This is what William said: "Never heard me before."

Đây là điều William đã nói: "Trước đây, chưa bao giờ tôi nghe thấy tiếng mình."

Thank you.

Xin cảm ơn.

(Applause)

(Tiếng vỗ tay).

I'm going to start by playing you a sample of a voice that you may recognize.

Tôi sẽ cho các bạn nghe một mẫu giọng nói mà các bạn có thế nhận ra.

(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."

(Băng) Stephen Hawking: "Tôi nghĩ mình đã diễn đạt khá rõ điều muốn nói."

I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.

(First voice)

(Giọng nói thứ nhất)

(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.

(Giọng nói thứ 2) Bạn có thể không hiểu những gì họ nói, nhưng tôi hy vọng bạn có thể nhận ra đặc điểm riêng về giọng nói của họ.

(Video) Voice: Things happen in pairs.

(Video) Giọng nói: Những thứ xảy ra cùng lúc.

I love to sleep.

Tôi muốn đi ngủ.

The sky is blue without clouds.

Bầu trời xanh không gợn chút mây.

(Video) Voice: I love chocolate.

(Video) Giọng nói: Tôi thích Sô Cô La.

RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.

(Video) Samantha: Aaaaaah.

RP: So now, Samantha can say this.

Và bây giờ, Samantha có thể nói như thế này.

(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.

(Video) Samantha: Giọng nói này chỉ dành cho tôi. Tôi nóng lòng muốn dùng nó để nói chuyện với các bạn.

RP: Thank you. (Applause)

RP: Cảm ơn (Tiếng vỗ tay)

This is what William said: "Never heard me before."

Đây là điều William đã nói: "Trước đây, chưa bao giờ tôi nghe thấy tiếng mình."

Thank you.

Xin cảm ơn.

(Applause)

(Tiếng vỗ tay).

Rupal Patel: Synthetic voices, as unique as fingerprints

Rupal Patel: Synthetic voices, as unique as fingerprints

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice

Related talks

Ellen Jorgensen: Biohacking -- you can do it, too

Julian Treasure: Shh! Sound health in 8 steps

Craig Venter: On the verge of creating synthetic life

Rébecca Kleinberger: Why you don't like the sound of your own voice

Shaylin Schundler: Why does your voice change as you get older?

Roger Ebert: Remaking my voice