Σήμερα θα ήθελα να μιλήσω για μια ισχυρή και θεμελιώδη πτυχή του ποιοι είμαστε: τη φωνή μας. Κάθε ένας από εμάς έχει ένα μοναδικό ηχητικό αποτύπωμα που αντικατοπτρίζει την ηλικία μας, το μέγεθός μας, ακόμη και τον τρόπο ζωής και την προσωπικότητά μας. Όπως είπε ο ποιητής Λονγκφέλοου, «H ανθρώπινη φωνή είναι το όργανο της ψυχής». Ως επιστήμονας που ασχολείται με την ομιλία, με συναρπάζει πώς παράγεται η φωνή, και έχω μια ιδέα για το πώς μπορεί να κατασκευαστεί. Αυτό θα ήθελα να μοιραστώ μαζί σας.
I'd like to talk today about a powerful and fundamental aspect of who we are: our voice. Each one of us has a unique voiceprint that reflects our age, our size, even our lifestyle and personality. In the words of the poet Longfellow, "the human voice is the organ of the soul." As a speech scientist, I'm fascinated by how the voice is produced, and I have an idea for how it can be engineered. That's what I'd like to share with you.
Θα ξεκινήσω παίζοντάς σας ένα δείγμα μιας φωνής που ίσως αναγνωρίσετε.
I'm going to start by playing you a sample of a voice that you may recognize.
(Ηχογράφηση) Στήβεν Χώκινγκ: «Πίστευα ότι ήταν αρκετά προφανές αυτό που εννοούσα».
(Recording) Stephen Hawking: "I would have thought it was fairly obvious what I meant."
Ρούπαλ Πατέλ: Αυτή ήταν η φωνή του καθηγητή Στήβεν Χώκινγκ. Αυτό που ίσως δεν γνωρίζετε είναι ότι η ίδια φωνή μπορεί να χρησιμοποιηθεί και από αυτό το κοριτσάκι που δεν μπορεί να μιλήσει λόγω μιας νευρολογικής πάθησης. Στην πραγματικότητα, όλα αυτά τα άτομα μπορεί να χρησιμοποιούν την ίδια φωνή, και αυτό ισχύει επειδή υπάρχουν πολύ λίγες διαθέσιμες επιλογές. Μόνο στις Η.Π.Α., υπάρχουν 2,5 εκατομμύρια Αμερικανοί που δεν μπορούν να μιλήσουν και πολλοί από αυτούς χρησιμοποιούν ηλεκτρονικές συσκευές για να επικοινωνούν. Αυτό σημαίνει εκατομμύρια ανθρώπων σε όλο τον κόσμο που χρησιμοποιούν γενικές φωνές, συμπεριλαμβανομένου και του καθηγητή Χώκινγκ, ο οποίος χρησιμοποιεί φωνή με αμερικάνικη προφορά. Αυτή η έλλειψη εξατομίκευσης της συνθετικής φωνής πραγματικά με επηρρέασε όταν πήγα σε ένα συνέδριο βοηθητικών τεχνολογιών πριν από μερικά χρόνια και θυμάμαι να μπαίνω σε έναν εκθεσιακό χώρο και να βλέπω ένα κοριτσάκι και έναν ενήλικα να συζητούν χρησιμοποιώντας τις συσκευές τους, διαφορετικές συσκευές, αλλά με την ίδια φωνή. Κοίταξα γύρω μου και είδα να συμβαίνει αυτό παντού, κυριολεκτικά εκατοντάδες άτομα να χρησιμοποιούν λίγες φωνές, φωνές που δεν ταίριαζαν με τα σώματά τους ή τις προσωπικότητές τους. Δεν θα μας περνούσε καν από το μυαλό να τοποθετήσουμε σε ένα κοριτσάκι το προσθετικό άκρο ενός ενήλικα. Τότε γιατί να το κάνουμε με την προσθετική φωνή; Μου έκανε πραγματικά εντύπωση, και ήθελα να κάνω κάτι γι' αυτό.
Rupal Patel: That was the voice of Professor Stephen Hawking. What you may not know is that same voice may also be used by this little girl who is unable to speak because of a neurological condition. In fact, all of these individuals may be using the same voice, and that's because there's only a few options available. In the U.S. alone, there are 2.5 million Americans who are unable to speak, and many of whom use computerized devices to communicate. Now that's millions of people worldwide who are using generic voices, including Professor Hawking, who uses an American-accented voice. This lack of individuation of the synthetic voice really hit home when I was at an assistive technology conference a few years ago, and I recall walking into an exhibit hall and seeing a little girl and a grown man having a conversation using their devices, different devices, but the same voice. And I looked around and I saw this happening all around me, literally hundreds of individuals using a handful of voices, voices that didn't fit their bodies or their personalities. We wouldn't dream of fitting a little girl with the prosthetic limb of a grown man. So why then the same prosthetic voice? It really struck me, and I wanted to do something about this.
Τώρα θα παίξω ένα δείγμα δύο ατόμων που έχουν σοβαρές διαταραχές λόγου. Θέλω να ακούσετε πώς ακούγονται. Λένε το ίδιο πράγμα.
I'm going to play you now a sample of someone who has, two people actually, who have severe speech disorders. I want you to take a listen to how they sound. They're saying the same utterance.
(Πρώτη φωνή)
(First voice)
(Δεύτερη φωνή) Μάλλον δεν καταλάβατε τι είπαν, αλλά ελπίζω να ακούσατε τις μοναδικές τους ηχητικές ταυτότητες.
(Second voice) You probably didn't understand what they said, but I hope that you heard their unique vocal identities.
Το επόμενο πράγμα που ήθελα να κάνω ήταν να ανακαλύψω πώς θα μπορούσαμε να τιθασεύσουμε αυτές τις εναπομένουσες φωνητικές ικανότητες και να δημιουργήσουμε μια τεχνολογία που θα μπορούσε να εξατομικευτεί γι' αυτούς, φωνές που θα μπορούσαν να εξατομικευτούν γι' αυτούς. Έτσι επικοινώνησα με τον συνεργάτη μου, τον Τιμ Μπάνελ. Ο δρ. Μπάνελ είναι ειδικός στη σύνθεση λόγου, και αυτό που έκανε ήταν να δημιουργεί εξατομικευμένες φωνές για ανθρώπους συνδέοντας προ-ηχογραφημένα δείγματα της φωνής τους και ανακατασκευάζοντας γι' αυτούς μια φωνή. Αυτοί είναι άνθρωποι που είχαν χάσει τη φωνή τους αργότερα στη ζωή τους. Δεν είχαμε την πολυτέλεια προ-ηχογραφημένων δειγμάτων λόγου γι' αυτούς που γεννήθηκαν με διαταραχή ομιλίας. Αλλά σκέφτηκα ότι πρέπει να υπήρχε ένας τρόπος να γίνει μηχανική αναστροφή του λόγου από αυτό το λίγο που έχει απομείνει.
So what I wanted to do next is, I wanted to find out how we could harness these residual vocal abilities and build a technology that could be customized for them, voices that could be customized for them. So I reached out to my collaborator, Tim Bunnell. Dr. Bunnell is an expert in speech synthesis, and what he'd been doing is building personalized voices for people by putting together pre-recorded samples of their voice and reconstructing a voice for them. These are people who had lost their voice later in life. We didn't have the luxury of pre-recorded samples of speech for those born with speech disorder. But I thought, there had to be a way to reverse engineer a voice from whatever little is left over.
Έτσι αποφασίσαμε να κάνουμε ακριβώς αυτό. Ξεκινήσαμε με μια μικρή χρηματοδότηση από το Εθνικό Ίδρυμα Επιστήμης, για να δημιουργήσουμε εξατομικευμένες φωνές που αιχμαλώτιζαν τις μοναδικές τους φωνητικές ταυτότητες. Ονομάσαμε αυτό το έργο VocaliD ή vocal I.D., που σημαίνει φωνητική ταυτότητα.
So we decided to do exactly that. We set out with a little bit of funding from the National Science Foundation, to create custom-crafted voices that captured their unique vocal identities. We call this project VocaliD, or vocal I.D., for vocal identity.
Πριν μπω σε λεπτομέρειες πώς δημιουργείται η φωνή και σας αφήσω να την ακούσετε, πρέπει να σας κάνω ένα πολύ γρήγορο μάθημα επιστήμης λόγου. Εντάξει; Πρώτα, ξέρουμε ότι η φωνή αλλάζει δραματικά κατά τη διάρκεια της ανάπτυξης. Τα παιδιά ακούγονται διαφορετικά από τους εφήβους οι οποίοι ακούγονται διαφορετικά από τους ενήλικες. Όλοι το έχουμε βιώσει αυτό. Γεγονός νούμερο δύο: ο λόγος είναι ένας συνδυασμός της πηγής, δηλαδή των δονήσεων που δημιουργούνται από το λάρυγγά σας, οι οποίες κατόπιν μεταφέρονται μέσω της υπόλοιπης φωνητικής οδού. Αυτό αποτελείται από τους θαλάμους του κεφαλιού και του λαιμού σας που δονούνται και φιλτράρουν αυτόν τον πηγαίο ήχο για να δημιουργήσουν σύμφωνα και φωνήεντα. Έτσι με το συνδυασμό της πηγής και του φίλτρου παράγουμε λόγο. Και αυτό γίνεται σε καθέναν.
Now before I get into the details of how the voice is made and let you listen to it, I need to give you a real quick speech science lesson. Okay? So first, we know that the voice is changing dramatically over the course of development. Children sound different from teens who sound different from adults. We've all experienced this. Fact number two is that speech is a combination of the source, which is the vibrations generated by your voice box, which are then pushed through the rest of the vocal tract. These are the chambers of your head and neck that vibrate, and they actually filter that source sound to produce consonants and vowels. So the combination of source and filter is how we produce speech. And that happens in one individual.
Σας είπα νωρίτερα ότι είχα περάσει ένα μεγάλο μέρος της καριέρας μου κατανοώντας και μελετώντας τα πηγαία χαρακτηριστικά των ατόμων με σοβαρές διαταραχές λόγου, και αυτό που ανακάλυψα είναι ότι παρ' όλο που τα φίλτρα τους ήταν εξασθενημένα, μπορούσαν να τροποποιήσουν τις ιδιότητες της πηγής τους: τον τόνο, την ένταση, τον ρυθμό της φωνής τους. Αυτές ονομάζονται προσωδία και καταγράφω εδώ και χρόνια ότι οι προσωδικές ικανότητες αυτών των ατόμων διατηρούνται. Έτσι, όταν συνειδητοποίησα ότι αυτές οι ιδιότητες είναι επίσης σημαντικές για την ταυτότητα του ομιλητή, είχα αυτή την ιδέα: Γιατί δεν παίρνουμε την πηγή από το πρόσωπο του οποίου θέλουμε να μοιάζει η φωνή, επειδή αυτή έχει διατηρηθεί, και να δανειστούμε το φίλτρο από κάποιον περίπου της ίδιας ηλικίας και μεγέθους, επειδή αυτός μπορεί να αρθρώσει λόγο, και στη συνέχεια να τα συνδυάσουμε; Επειδή όταν τα συνδυάζουμε, μπορούμε να έχουμε μια φωνή που είναι τόσο ξεκάθαρη όπως αυτή του παρένθετου ομιλητή μας -- αυτό είναι το άτομο από το οποίο δανειστήκαμε το φίλτρο -- και είναι παρόμοιο σε ταυτότητα με τον ομιλητή στον οποίο στοχεύουμε. Είναι τόσο απλό. Αυτή είναι η επιστήμη πίσω από αυτό που κάνουμε.
Now I told you earlier that I'd spent a good part of my career understanding and studying the source characteristics of people with severe speech disorder, and what I've found is that even though their filters were impaired, they were able to modulate their source: the pitch, the loudness, the tempo of their voice. These are called prosody, and I've been documenting for years that the prosodic abilities of these individuals are preserved. So when I realized that those same cues are also important for speaker identity, I had this idea. Why don't we take the source from the person we want the voice to sound like, because it's preserved, and borrow the filter from someone about the same age and size, because they can articulate speech, and then mix them? Because when we mix them, we can get a voice that's as clear as our surrogate talker -- that's the person we borrowed the filter from— and is similar in identity to our target talker. It's that simple. That's the science behind what we're doing.
Έτσι, με αυτό κατά νου, τι κάνετε για να δημιουργήσετε αυτή τη φωνή; Λοιπόν, πρέπει να βρείτε κάποιον που είναι πρόθυμος να γίνει παρένθετος. Δεν είναι κάτι κακό. Για να γίνετε παρένθετος δωρητής χρειάζεται μόνο να πείτε μερικές εκατοντάδες έως μερικές χιλιάδες φράσεις. Η διαδικασία έχει κάπως έτσι:
So once you have that in mind, how do you go about building this voice? Well, you have to find someone who is willing to be a surrogate. It's not such an ominous thing. Being a surrogate donor only requires you to say a few hundred to a few thousand utterances. The process goes something like this.
(Βίντεο) Φωνή: Τα πράγματα συμβαίνουν ανά ζεύγη.
(Video) Voice: Things happen in pairs.
Μου αρέσει να κοιμάμαι.
I love to sleep.
Ο ουρανός είναι γαλάζιος χωρίς σύννεφα.
The sky is blue without clouds.
ΡΠ: Θα συνεχίσει έτσι για περίπου τρεις με τέσσερις ώρες, και η ιδέα δεν είναι να πει τα πάντα που θα θελήσει να πει ο στόχος, αλλά να καλύψει όλους τους διαφορετικούς συνδυασμούς των ήχων που προκύπτουν στη γλώσσα. Όσο περισσότερη ομιλία έχετε, τόσο πιο καλόηχη φωνή θα έχετε. Μόλις έχουμε αυτές τις ηχογραφήσεις, αυτό που πρέπει να κάνουμε είναι να αναλύσουμε αυτές τις ηχογραφήσεις σε μικρά κομμάτια λόγου, συνδυασμούς ενός ή δύο ήχων, μερικές φορές ακόμη και ολόκληρες λέξεις που αρχίζουν να συμπληρώνουν ένα σύνολο ή μια βάση δεδομένων. Θα ονομάσουμε αυτή τη βάση δεδομένων τράπεζα φωνής. H δύναμη της τράπεζας φωνής είναι ότι από αυτήν μπορούμε να πούμε τώρα οποιαδήποτε νέα φράση όπως, «Μου αρέσει η σοκολάτα» -- ο καθένας πρέπει να είναι σε θέση να το πει αυτό -- να ψαρέψουμε μέσα σε αυτή τη βάση δεδομένων και να βρούμε όλα τα απαραίτητα τμήματα για να πούμε αυτήν την φράση.
RP: Now she's going to go on like this for about three to four hours, and the idea is not for her to say everything that the target is going to want to say, but the idea is to cover all the different combinations of the sounds that occur in the language. The more speech you have, the better sounding voice you're going to have. Once you have those recordings, what we need to do is we have to parse these recordings into little snippets of speech, one- or two-sound combinations, sometimes even whole words that start populating a dataset or a database. We're going to call this database a voice bank. Now the power of the voice bank is that from this voice bank, we can now say any new utterance, like, "I love chocolate" -- everyone needs to be able to say that— fish through that database and find all the segments necessary to say that utterance.
(Βίντεο) Φωνή: Μου αρέσει η σοκολάτα.
(Video) Voice: I love chocolate.
ΡΠ: Αυτή είναι λοιπόν η σύνθεση λόγου. Λέγεται συνενωτική σύνθεση, και αυτό χρησιμοποιούμε. Αυτό δεν είναι το καινοφανές μέρος. Καινοφανές είναι πώς το κάνουμε να ακούγεται όπως αυτή η νεαρή γυναίκα.
RP: So that's speech synthesis. It's called concatenative synthesis, and that's what we're using. That's not the novel part. What's novel is how we make it sound like this young woman.
Αυτή είναι η Σαμάνθα. Τη γνώρισα όταν ήταν εννιά, και από τότε, η ομάδα μου κι εγώ προσπαθούμε να της φτιάξουμε μια εξατομικευμένη φωνή. Πρώτα έπρεπε να βρούμε έναν παρένθετο δωρητή, και μετά έπρεπε να βάλουμε τη Σαμάνθα να παράξει κάποιες φράσεις. Μπορεί να παράγει κυρίως ήχους σαν φωνήεντα, αλλά αυτό μας είναι αρκετό για να εξάγουμε τα πηγαία χαρακτηριστικά της. Αυτό που θα συμβεί στη συνέχεια περιγράφεται καλύτερα από την αναλογία της κόρης μου. Είναι έξι ετών. Το αποκαλεί ανάμειξη χρωμάτων για τον χρωματισμό φωνών. Είναι όμορφο. Είναι ακριβώς αυτό. Η φωνή της Σαμάνθα είναι σαν ένα συμπυκνωμένο δείγμα από κόκκινη χρωστική φαγητού που μπορούμε να εμποτίσουμε στις ηχογραφήσεις της παρένθετής της για να πάρει μια ροζ φωνή, ακριβώς όπως αυτή.
This is Samantha. I met her when she was nine, and since then, my team and I have been trying to build her a personalized voice. We first had to find a surrogate donor, and then we had to have Samantha produce some utterances. What she can produce are mostly vowel-like sounds, but that's enough for us to extract her source characteristics. What happens next is best described by my daughter's analogy. She's six. She calls it mixing colors to paint voices. It's beautiful. It's exactly that. Samantha's voice is like a concentrated sample of red food dye which we can infuse into the recordings of her surrogate to get a pink voice just like this.
(Βίντεο) Σαμάνθα: Αααααα.
(Video) Samantha: Aaaaaah.
ΡΠ: Οπότε τώρα, η Σαμάνθα μπορεί να πει αυτό:
RP: So now, Samantha can say this.
(Βίντεο) Σαμάνθα: Αυτή η φωνή είναι μόνο για μένα. Ανυπομονώ να χρησιμοποιήσω τη νέα μου φωνή με τους φίλους μου.
(Video) Samantha: This voice is only for me. I can't wait to use my new voice with my friends.
ΡΠ: Σας ευχαριστώ. (Χειροκρότημα)
RP: Thank you. (Applause)
Δεν θα ξεχάσω ποτέ το ευγενικό χαμόγελο που απλώθηκε σε όλο το πρόσωπό της όταν άκουσε αυτή τη φωνή για πρώτη φορά. Τώρα υπάρχουν εκατομμύρια άνθρωποι σε όλο τον κόσμο σαν τη Σαμάνθα, εκατομμύρια, και είμαστε μόλις στην αρχή. Αυτό που έχουμε κάνει μέχρι τώρα είναι να έχουμε μερικούς παρένθετους ομιλητές από τις Η.Π.Α. που έχουν δωρίσει τις φωνές τους, και τις χρησιμοποιούμε για να δημιουργήσουμε τις πρώτες λίγες προσωποποιημένες φωνές. Αλλά πρέπει να γίνει πολύ δουλειά ακόμη. Για τη Σαμάνθα, η παρένθετή της προήλθε κάπου από τις μεσοδυτικές πολιτείες, μια ξένη που της έδωσε το δώρο της φωνής. Ως επιστήμονας, είμαι τόσο ενθουσιασμένη που βγάζω επιτέλους αυτή τη δουλειά από το εργαστήριο στον πραγματικό κόσμο έτσι ώστε να έχει πραγματικές επιπτώσεις. Αυτό που θέλω να μοιραστώ μαζί σας στη συνέχεια είναι πώς οραματίζομαι να πάω αυτό το έργο στο επόμενο επίπεδο. Φαντάζομαι έναν ολόκληρο κόσμο με παρένθετους δωρητές από όλα τα διαφορετικά κοινωνικά στρώματα, μεγέθη και ηλικίες, να ενώνονται σε αυτό το κίνητρο φωνής για να δώσουν φωνές στους ανθρώπους που είναι τόσο πολύχρωμες, όσο και οι προσωπικότητές τους. Το πρώτο βήμα για το κάνουμε αυτό, ήταν να φτιάξουμε μια ιστοσελίδα, τη VocaliD.org, ως τρόπο για να φέρουμε κοντά όσους θέλουν να μας βοηθήσουν ως δωρητές φωνής, ως ειδικευμένοι δωρητές, με όποιο τρόπο μπορούν, ώστε να κάνουν αυτό το όραμα πραγματικότητα.
I'll never forget the gentle smile that spread across her face when she heard that voice for the first time. Now there's millions of people around the world like Samantha, millions, and we've only begun to scratch the surface. What we've done so far is we have a few surrogate talkers from around the U.S. who have donated their voices, and we have been using those to build our first few personalized voices. But there's so much more work to be done. For Samantha, her surrogate came from somewhere in the Midwest, a stranger who gave her the gift of voice. And as a scientist, I'm so excited to take this work out of the laboratory and finally into the real world so it can have real-world impact. What I want to share with you next is how I envision taking this work to that next level. I imagine a whole world of surrogate donors from all walks of life, different sizes, different ages, coming together in this voice drive to give people voices that are as colorful as their personalities. To do that as a first step, we've put together this website, VocaliD.org, as a way to bring together those who want to join us as voice donors, as expertise donors, in whatever way to make this vision a reality.
Λένε ότι η αιμοδοσία μπορεί να σώσει ζωές. Το να δώσετε τη φωνή σας μπορεί να αλλάξει ζωές. Το μόνο που χρειαζόμαστε είναι λίγες ώρες λόγου από τον παρένθετο ομιλητή, και μόνο ένα φωνήεν από τον ομιλητή στόχο, για να δημιουργήσουμε μια μοναδική φωνητική ταυτότητα.
They say that giving blood can save lives. Well, giving your voice can change lives. All we need is a few hours of speech from our surrogate talker, and as little as a vowel from our target talker, to create a unique vocal identity.
Αυτή είναι η επιστήμη πίσω από αυτό που κάνουμε. Θέλω να τελειώσω επιστρέφοντας στην ανθρώπινη πλευρά που είναι στην πραγματικότητα η έμπνευση γι' αυτό το έργο. Περίπου πέντε χρόνια πριν, δημιουργήσαμε την πρώτη μας φωνή για ένα μικρό αγόρι που ονομάζεται Ουίλιαμ. Όταν η μαμά του άκουσε για πρώτη φορά αυτήν τη φωνή, είπε, «Έτσι θα ακουγόταν ο Ουίλιαμ αν ήταν σε θέση να μιλήσει.» Και τότε είδα τον Ουίλιαμ να πληκτρολογεί ένα μήνυμα στη συσκευή του. Αναρωτήθηκα τι σκεφτόταν. Φανταστείτε να κουβαλάτε τη φωνή κάποιου άλλου για εννέα χρόνια και τελικά να βρίσκετε τη φωνή σας. Φανταστείτε το.
So that's the science behind what we're doing. I want to end by circling back to the human side that is really the inspiration for this work. About five years ago, we built our very first voice for a little boy named William. When his mom first heard this voice, she said, "This is what William would have sounded like had he been able to speak." And then I saw William typing a message on his device. I wondered, what was he thinking? Imagine carrying around someone else's voice for nine years and finally finding your own voice. Imagine that.
Αυτό είπε ο Ουίλιαμ: «Δεν με έχω ξανακούσει ποτέ».
This is what William said: "Never heard me before."
Σας ευχαριστώ.
Thank you.
(Χειροκρότημα)
(Applause)