I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.
Bugün kim olduğumuza dair güçlü ve temel bir husus hakkında konuşmak istiyorum: sesimiz. Her birimiz yaşımızı, bedenimizi hatta yaşam tarzımızı ve kişiliğimizi yansıtan özgün ses özelliklerine sahibiz. Şair Longfellow'un deyişiyle "İnsan sesi ruhun organıdır.'' Bir konuşma bilimcisi olarak, sesin nasıl üretildiğine hayranım ve onun tasarımına dair bir fikrim var. Sizinle paylaşmak istediğim de bu.
I'm going to start by playing you a sample of a voice that you may recognize.
Tanıyabileceğiniz bir ses örneğini dinleterek başlayacağım.
(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."
(Ses kaydı) Stephen Hawking: Demek istediğimin oldukça aşikar olduğunu düşünürdüm.
Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.
Rupal Patel: Bu Prof. Stephen Hawking'in sesiydi. Sizin bilmiyor olabileceğiniz şey aynı sesin nörolojik bir koşuldan dolayı konuşamayan bu küçük kız tarafından da kullanılabileceğidir. Açıkçası, bütün bu bireyler sayılı seçenekleri olduğundan dolayı aynı sesi kullanıyor olabilirler. Sadece ABD'de konuşamayan 2.5 milyon Amerikan var ve bunların çoğu iletişim kurabilmek için bilgisayar donanımlı araçlar kullanıyorlar. Dünya genelinde jenerik sesleri kullanan milyonlarca insan var. Buna Amerikan aksanlı sesi kullanan Stephan Hawking de dahil. Birkaç yıl önce yardımcı teknoloji ürünleri konferansında yapay sesin bireysellikten yoksunluğu beni derinden sarstı ve bir sergi salonunda kendi cihazlarıyla iletişim kuran farklı cihazları fakat aynı sesi kullanan küçük bir kızla yetişkin birini anımsadım. Etrafıma baktım ve bunun tüm çevremde böyle olduğunu gördüm. Abartısız yüzlerce birey kendi bedenlerine ve kişiliklerine uymayan bir avuç sesi kullanıyordu. Küçük bir kıza yetişkin bir bireyin prostetik bacağını yerleştirmeyi düşünmeyiz. Peki neden aynı ses? Bu sahiden kafama dank etti ve bu konuda bir şeyler yapmak istedim.
I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.
Şimdi sizlere ciddi konuşma bozuklukları olan birinin -aslında iki kişi- örneklerini dinleteceğim. Seslerinin nasıl çıktığını dinlemenizi istiyorum. Her ikisi de aynı şeyi söylüyorlar.
(First voice)
(Birinci ses)
(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.
(İkinci ses) Muhtemelen ne söylediklerini anlamadınız, fakat kendi özgün ses kimliklerini duyduğunuzu umuyorum
So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.
Bundan sonra yapmak istediğim şey kalan bu ses yeteneklerinden nasıl yararlanabileceğimizi bulmak ve onlar için kişiselleştirilmiş bir teknoloji geliştirmekti, kendilerine özgü olabilecek sesler. Bu yüzden iş arkadaşım Tim Bunnell'e ulaştım. Dr. Bunnell yapay konuşma uzmanıdır. Onun yapmakta olduğu şey insanların önceden kaydedilmiş seslerini bir araya getirerek onlar için yeniden kişiselleştirilmiş sesler oluşturmaktı. Bu kişiler seslerini sonradan kaybeden insanlardı. Konuşma hastalıklarıyla doğanlar için önceden kaydedilmiş ses örneklerine sahip olmak gibi bir lüksümüz yoktu. Fakat sesten geriye ne kaldıysa onu geri döndürmek için bir yol olması gerektiğini düşündüm.
So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.
Ve biz de tam olarak bunu yapmaya karar verdik. Kişisel özgün ses özellikleriyle özel hazırlanmış sesler oluşturmak için öncelikle Uluslarası Bilim Kuruluşundan bir miktar finansman sağlayarak yola çıktık. Bu projeye ses kimliğinden dolayı VocaliD veya vocal I.D. adını verdik.
Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.
Şimdi size sesi dinletmeden ve nasıl yapıldığına dair detaylara inmeden önce, hızlı bir konuşma bilimi dersi vermem gerekiyor. Tamam mı? Öncelikle insanın gelişimi boyunca sesin önemli ölçüde değiştiğini biliyorduk. Bir çocuğun sesi gencin sesinden, gencinki de yaşlınınkinden farklıdır. Bunu hepimiz yaşamışızdır. İkinci gerçek, konuşmanın gırtlağınızda üretilip daha sonra kalan ses kanalınız boyunca iletilen titreşimlerinden kaynaklanan bir kombinasyon olduğudur. Bunlar başınızda ve boynunuzda titreşen boşluklardır ve gerçekten de kaynak sesleri filtreleyerek sesli ve sessizleri üretirler. Böylelikle kaynakların kombinasyonu ve filtre sayesinde biz ses üretiriz. Bir bireyde meydana gelenler bunlardır.
Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.
Sizlere önceden kariyerimin büyük bir kısmını ciddi konuşma bozukları olan insanların kaynak özelliklerini çalışarak ve anlayarak geçirdiğimi söylemiştim. Ve bulduğum şey, onların filtreleri harap olmuş olsa dahi seslerinin kaynaklarını ayarlayabiliyor olduklarıydı: Ses perdesi, ses şiddeti, ses temposu. Bunlara bürün denir ve ben yıllardır bu bireylerin bürünsel özelliklerinin korunduğunu belgeliyorum. Bu işaretlerin konuşmacı kimliği için de önemli olduğunu farkettiğimde şöyle bir fikrim oluştu. Neden kaynağı, sesin benzemesini istediğimiz kişiden almıyoruz? Çünkü kaynak korunmuştur. Filtreyi de aynı yaşlarda ve boyutlarda olan birinden alalım çünkü onlar açıkça konuşabiliyorlar. Daha sonra bunları karıştıralım. Çünkü bunları karıştırdığımızda vekil konuşmacımızınki kadar temiz - bu filtreyi aldığımız kişi - ve kimlik olarak hedef konuşmacımızınkiyle aynı bir ses elde edebiliriz. İşte bu kadar basit. Yapıyor olduğumuz şeyin arkasındaki bilim bu.
So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.
Bunu bir kere aklına koyduktan sonra sesi inşa etme işine nasıl koyuluyorsun? Peki, vekil olmaya istekli birini bulman gerekiyor. Bu uğursuz bir şey değil. Vekil olmak yalnızca birkaç yüz ile birkaç bin arasında cümle söylemeni gerektiriyor. Süreç bunun gibi işliyor.
(Video) Voice: Things happen in pairs.
(Video) Ses: Olaylar çift olarak gerçekleşir.
I love to sleep.
Uyumayı severim.
The sky is blue without clouds.
Gökyüzü bulutlar olmadan mavidir.
RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.
Bu şekilde üç veya dört saat devam ediyor. Düşüncemiz, hedefin söylemek istediği her şeyi söyletmek değil, Düşüncemiz, söylediklerinin dilde bulunan tüm farklı seslerin kombinasyonlarını içermesi. Ne kadar çok konuşma olursa o kadar iyi bir sese sahip olursunuz. Bu kayıtlara sahip olduğumuzda yapmamız gereken şey onları küçük konuşma kırpıntılarına ayrıştırmaktır. Bir veya iki sesli kombinasyonlara. Bazen bir veri kümesini veya veritabanını doldurmaya başlayan tüm kelimeleri. Bu veritabanlarına ses bankası diyeceğiz. Ses bankasının gücü şudur: ses bankasının yardımıyla herhangi yeni bir cümleyi, "Çikolatayı severim." gibi -herkes bunu söyleyebilmeli- veri tabanından bu cümleyi söylemek için gerekli tüm bölütleri araştırıyoruz
(Video) Voice: I love chocolate.
(Video)Ses: Çikolata severim.
RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.
RP: İşte bu ses sentezi. Buna bitişik sentez deniliyor ve biz de bunu kullanıyoruz. Özgün olan kısmı burası değil. Özgün olan kısmı bunu nasıl bu genç bayanın sesine benzetebildiğimiz.
This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.
Bu Samantha. Onunla o dokuz yaşındayken tanıştım ve tanıştığımızdan beri ben ve ekibim ona özel bir ses inşa etmek için uğraşıyoruz. Öncelikle bir vekil donör bulmuştuk, ardından Samantha’ya bir şeyler söyletmemiz gerekmişti. Onun ürettiği sesler daha çok sesli harf benzeriydi fakat onun sesinin kaynağını özütleyebilmemiz için bu bize yeterli değildi. Daha sonra olanları en iyi tarif eden şey altı yaşındaki kızımın benzetmesi oldu. Kızım buna sesleri çizmek için renkleri karıştırmak diyor. Çok güzel, yaptığımız şey tam olarak bu. Samantha’nın sesi konsantre kırmızı meyve boyası örneği gibiydi. Pembe bir ses elde etmek için onu vekilinin kayıtlarıyla aşılayabilirdik. Aynen böyle.
(Video) Samantha: Aaaaaah.
(Video) Samantha: Aaaaaah.
RP: So now, Samantha can say this.
RP: Şimdi Samantha bunu söyleyebiliyor.
(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.
(Video) Samantha: Bu ses sadece benim için. Yeni sesimi arkadaşlarımla kullanmak için sabırsızlanıyorum.
RP: Thank you. (Applause)
RP: Teşekkürler. (Alkışlar)
I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.
Bu sesi ilk duyduğunda yüzüne yayılan tatlı gülümsemeyi hiçbir zaman unutamayacağım. Şu anda Dünya’nın her tarafında Samantha gibi milyonlarca insan var ve biz sadece ilk adımı atarak başladık. Şimdiye kadar ABD’den kendi seslerini bağışlayan birkaç vekil konuşmacımız var ve biz onlarla ilk kişileştirilmiş seslerimizi kuruyoruz. Fakat yapılacak daha çok fazla iş var. Samantha için vekili Ortabatı'dan bir yerden geliyordu, ona ses hediyesini veren bir yabancı. Ve bir bilimci olarak, bu çalışmayı sonunda laboratuvardan gerçek dünyaya çıkarabildiğim için çok heyecanlıyım. Böylece gerçek-dünya etkisi olabilir. Sizinle paylaşmak istediğim diğer şeyse bu çalışmayı bir sonraki seviyeye taşımayı zihnimde nasıl canlandırdığım. Farklı yaşlardan, farklı bedenlerden toplumun her kesiminden vekil donörlerin insanlara kendi kişilikleri kadar renkli sesler vermek için bu ses koşusunda bir araya geldiği bir bütün dünya hayal ediyorum. Bunu gerçekleştirmek için ilk adım olarak, VocaliD.org web sitesini kurduk ve ses donörü, uzman ses donörü olarak bu hayali herhangi bir şekilde gerçeğe dönüştürmek için katılmak isteyen insanları bir araya getirmek istedik.
They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.
Kan vermenin hayat kurtarabileceğini söylerler. Sesinizi vermek de hayatları değiştirebilir. Özgün ses kimliği oluşturmak için bize gereken tek şey vekil donörümüzden sadece birkaç saatlik konuşma ve hedef konuşmacımızdan da çok az bir sesli harftir.
So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.
İşte yapmakta olduğumuz şeyin arkasındaki bilim bu. Bu çalışmanın gerçekten ilhamı olan insan tarafına geri dönerek bitirmek istiyorum. Yaklaşık beş sene önce Willliam adında küçük bir oğlana ilk sesimizi inşa etmiştik. Annesi bu sesi ilk duyduğunda şöyle demişti: "Eğer William konuşabilseydi sahip olacağı ses bu olurdu." Ve daha sonra William'ı kendi cihazıyla bir mesaj yazarken görmüştüm. Ne düşündüğünü merak etmiştim. Başka birinin sesini dokuz yıl taşıdıktan sonra sonunda kendi sesinizi bulduğunuzu düşünün. Bunu hayal edin.
This is what William said: "Never heard me before."
William’ın söylediği şuydu: "Beni daha önce hiç duymadınız."
Thank you.
Teşekkürler.
(Applause)
(Alkışlar)