Riccardo Sabatini: How to read the genome and build a human being

През следващите 16 минути ще ви отведа на приключение, представляващо може би най-голямата мечта на човечеството: да разбера кода на живота.

For the next 16 minutes, I'm going to take you on a journey that is probably the biggest dream of humanity: to understand the code of life.

За мен всичко започна преди много, много години, когато се сблъсках с първия 3D принтер. Идеята беше пленителна. 3D принтерът се нуждае от три елемента: малко информация, суровина и енергия и може да изработи какъвто и да е предмет, който не е бил налице преди.

So for me, everything started many, many years ago when I met the first 3D printer. The concept was fascinating. A 3D printer needs three elements: a bit of information, some raw material, some energy, and it can produce any object that was not there before.

Занимавах се с физика, прибирах се към дома ми и осъзнах, че всъщност винаги съм познавал един 3D принтер. И всеки го познава. Това е майка ми.

I was doing physics, I was coming back home and I realized that I actually always knew a 3D printer. And everyone does. It was my mom.

(Смях)

(Laughter)

Майка ми взима три елемента: малко информация, която в случая е между баща ми и майка ми; суровина и енергия в една и съща среда - това е храната, и след няколко месеца произвежда мен. А аз не съществувах преди.

My mom takes three elements: a bit of information, which is between my father and my mom in this case, raw elements and energy in the same media, that is food, and after several months, produces me. And I was not existent before.

Освен че майка ми беше шокирана, когато откри, че е 3D принтер, аз веднага бях хипнотизиран от този елемент, първия, информацията. Колко информация е нужна, за да се направи и сглоби човек? Много ли е? Малко ли е? Колко флашки могат да бъдат запълнени?

So apart from the shock of my mom discovering that she was a 3D printer, I immediately got mesmerized by that piece, the first one, the information. What amount of information does it take to build and assemble a human? Is it much? Is it little? How many thumb drives can you fill?

Е, аз следвах физика в началото и приех човека за сравним с гигантско Лего блокче. Представете си, че градивните елементи са малки атоми и тук има водород, тук – въглерод, тук – азот. Значи според това първо сравнение, ако мога да изброя броя на атомите, съставящи човека, мога да го построя. Можете да направите някои сметки и това се оказва удивително число. Броят на атомите, файлът, който ще запаметя на флашката си, за да сглобя малко бебе, всъщност ще напълни цял Титаник от флашки, умножено по 2 000. Това е чудото на живота. Отсега нататък всеки път, щом видите бременна жена, тя сглобява най-голямото количество информация, което някога ще срещнете. Забравете за големите масиви от данни, забравете за всичко, което сте чували. Това е най-голямото съществуващо количество информация.

Well, I was studying physics at the beginning and I took this approximation of a human as a gigantic Lego piece. So, imagine that the building blocks are little atoms and there is a hydrogen here, a carbon here, a nitrogen here. So in the first approximation, if I can list the number of atoms that compose a human being, I can build it. Now, you can run some numbers and that happens to be quite an astonishing number. So the number of atoms, the file that I will save in my thumb drive to assemble a little baby, will actually fill an entire Titanic of thumb drives -- multiplied 2,000 times. This is the miracle of life. Every time you see from now on a pregnant lady, she's assembling the biggest amount of information that you will ever encounter. Forget big data, forget anything you heard of. This is the biggest amount of information that exists.

(Аплодисменти)

(Applause)

Но за щастие природата е много по-умна от млад физик и за четири милиарда години е успяла да побере тази информация в малък кристал, който наричаме ДНК. Срещаме го за първи път през 1950 г., когато Розалинд Франклин, страхотен учен, жена, го заснема. Но ни отнема повече от 40 години най-после да влезем в човешката клетка, да извадим този кристал, да го разгънем и да го разчетем за първи път. Кодът се оказа сравнително лесна азбука от четири букви: А,Т, Ц и Г. И за да направите човек, ви трябват три милиарда от тях. Три милиарда. Колко са три милиарда? Не значи нищо като число, нали?

But nature, fortunately, is much smarter than a young physicist, and in four billion years, managed to pack this information in a small crystal we call DNA. We met it for the first time in 1950 when Rosalind Franklin, an amazing scientist, a woman, took a picture of it. But it took us more than 40 years to finally poke inside a human cell, take out this crystal, unroll it, and read it for the first time. The code comes out to be a fairly simple alphabet, four letters: A, T, C and G. And to build a human, you need three billion of them. Three billion. How many are three billion? It doesn't really make any sense as a number, right?

Така че се чудех как по-добре да ви обясня колко наистина огромен е този код. Но има... имам предвид, че ще ми помогнат и най-подходящият човек, който може да ми помогне да представя кода е всъщност първият човек, който го е секвенирал – д-р Крег Вентър. Така че посрещнете на сцената д-р Крег Вентър.

So I was thinking how I could explain myself better about how big and enormous this code is. But there is -- I mean, I'm going to have some help, and the best person to help me introduce the code is actually the first man to sequence it, Dr. Craig Venter. So welcome onstage, Dr. Craig Venter.

(Аплодисменти)

(Applause)

Не човекът от плът и кръв, а за първи път в историята това е геномът на даден човек принтиран страница по страница, буква по буква 262 000 страници информация 450 килограма, изпратени от САЩ за Канада, благодарение на Бруно Боудън и стартъпът Lulu.com, те направиха всичко това. Беше страхотно постижение.

Not the man in the flesh, but for the first time in history, this is the genome of a specific human, printed page-by-page, letter-by-letter: 262,000 pages of information, 450 kilograms, shipped from the United States to Canada thanks to Bruno Bowden, Lulu.com, a start-up, did everything. It was an amazing feat.

Но това онагледява визуално какво е кодът на живота. И сега за първи път мога да направя нещо забавно. Мога всъщност да бръкна вътре и да чета. Позволете ми да взема една интересна книга... като тази тук. Едно пояснение от мен, сравнително голяма книга е. Само да ви покажа какво е кодът на живота. Хиляди, хиляди, хиляди и милиони букви. И те очевидно имат смисъл. Нека отидем на определена част. Нека ви я прочета:

But this is the visual perception of what is the code of life. And now, for the first time, I can do something fun. I can actually poke inside it and read. So let me take an interesting book ... like this one. I have an annotation; it's a fairly big book. So just to let you see what is the code of life. Thousands and thousands and thousands and millions of letters. And they apparently make sense. Let's get to a specific part. Let me read it to you:

(Смях)

(Laughter)

"ААГ, ААТ, АТА."

"AAG, AAT, ATA."

На вас ви звучат просто като букви, но тази секвенция определя цвета на очите на Крег. Ще ви покажа друга част от книгата. Това всъщност е малко по-сложно.

To you it sounds like mute letters, but this sequence gives the color of the eyes to Craig. I'll show you another part of the book. This is actually a little more complicated.

Хромозома 14, книга 132:

Chromosome 14, book 132:

(Смях)

(Laughter)

Както може да се очаква.

As you might expect.

(Смях)

(Laughter)

"ААТ, ЦТТ, ГАТТ."

"ATT, CTT, GATT."

Този човек е късметлия, защото ако липсват само две букви на това място, две букви от три милиарда, той ще бъде обречен на ужасна болест: цистична фиброза. Нямаме лек, не знаем как да се справим с нея, а разликата с това, което сме ние, е само две букви.

This human is lucky, because if you miss just two letters in this position -- two letters of our three billion -- he will be condemned to a terrible disease: cystic fibrosis. We have no cure for it, we don't know how to solve it, and it's just two letters of difference from what we are.

Чудесна книга, могъща книга - могъща книга, която ми помогна да разбера и да ви покажа нещо особено забележително. Всеки един от вас: това, което прави мен мен и вас – вас, е само около пет милиона от тези, половин книга. Относно останалото всички сме абсолютно идентични. Петстотин страници са чудото на живота, което сте. Останалото го споделяме всички. Да помислим отново за това, когато си мислим, че сме различни. Това е количеството, което споделяме.

A wonderful book, a mighty book, a mighty book that helped me understand and show you something quite remarkable. Every one of you -- what makes me, me and you, you -- is just about five million of these, half a book. For the rest, we are all absolutely identical. Five hundred pages is the miracle of life that you are. The rest, we all share it. So think about that again when we think that we are different. This is the amount that we share.

Сега, когато привлякох вниманието ви, следващият въпрос е: Как да го разчета? Как да намеря смисъла му? Колкото и добри да сте в сглобяването на шведски мебели, този наръчник не е нещо, което можете да разберете през живота си.

So now that I have your attention, the next question is: How do I read it? How do I make sense out of it? Well, for however good you can be at assembling Swedish furniture, this instruction manual is nothing you can crack in your life.

(Смях)

(Laughter)

И така, през 2014 г. двама известни ТЕDстъри, Питър Диамандис и самият Крег Вентър, решиха да основат нова компания. Хюмън Лонджевити се роди с една мисия: да опитаме всичко, което можем и да научим всичко, което можем от тези книги с една цел: да осъществим мечтата за персонализирана медицина, да разберем какво трябва да се направи, за да сме по-здрави и какви са тайните в тези книги.

And so, in 2014, two famous TEDsters, Peter Diamandis and Craig Venter himself, decided to assemble a new company. Human Longevity was born, with one mission: trying everything we can try and learning everything we can learn from these books, with one target -- making real the dream of personalized medicine, understanding what things should be done to have better health and what are the secrets in these books.

Страхотен екип, 40 учени и още много, много хора, с които е удоволствие да се работи. Идеята всъщност е много проста. Ще използваме технология, наречена машинно самообучение. От една страна, имаме геноми, хиляди от тях. От друга страна, събрахме най-голямата база данни от човешки същества: фенотипове, 3D сканиране, ЯМР - всичко, за което можете да се сетите. Вътре, на тези две противоположи страни, е тайната на превода. И по средата ние строим машина. Строим машина и я обучаваме - е, не точно една машина, а много, много машини, за да се опитаме да разберем и преведем генома във фенотип. Какви са тези букви и какво правят? Това е подход, който може да се използва за всичко, но използването му в геномиката е особено сложно. Малко по малко се разраснахме и искахме да си поставяме други предизвикателства. Започнахме от началото, от общите черти. Общите черти са удобни, защото са общи, всеки ги има.

An amazing team, 40 data scientists and many, many more people, a pleasure to work with. The concept is actually very simple. We're going to use a technology called machine learning. On one side, we have genomes -- thousands of them. On the other side, we collected the biggest database of human beings: phenotypes, 3D scan, NMR -- everything you can think of. Inside there, on these two opposite sides, there is the secret of translation. And in the middle, we build a machine. We build a machine and we train a machine -- well, not exactly one machine, many, many machines -- to try to understand and translate the genome in a phenotype. What are those letters, and what do they do? It's an approach that can be used for everything, but using it in genomics is particularly complicated. Little by little we grew and we wanted to build different challenges. We started from the beginning, from common traits. Common traits are comfortable because they are common, everyone has them.

Започнахме да задаваме въпросите си. Можем ли да предскажем височина? Можем ли да прочетем книгите и да предвидим височината ви? Всъщност можем, с точност до 5 сантиметра. Индексът на телесната маса е сравнително свързан с начина ви на живот, но все пак можем да го предскажем с точност до 8 килограма. Можем ли да предскажем цвета на очите? Да, можем. С 80 процента точност. Можем ли да предскажем цвета на кожата? Да, можем, с 80 процента точност. Можем ли да предскажем възрастта ви? Да, можем, защото кодът, изглежда, се променя през живота ви. Става по-къс, губите части, получавате допълнения. Разчитаме сигналите и правим модел.

So we started to ask our questions: Can we predict height? Can we read the books and predict your height? Well, we actually can, with five centimeters of precision. BMI is fairly connected to your lifestyle, but we still can, we get in the ballpark, eight kilograms of precision. Can we predict eye color? Yeah, we can. Eighty percent accuracy. Can we predict skin color? Yeah we can, 80 percent accuracy. Can we predict age? We can, because apparently, the code changes during your life. It gets shorter, you lose pieces, it gets insertions. We read the signals, and we make a model.

Ето едно интересно предизвикателство: Можем ли да предскажем човешко лице? Малко е сложно, защото човешкото лице е разпиляно сред милиони от тези букви. И човешкото лице не е много добре дефиниран обект, така че трябваше да направим специален алгоритъм, за да научим и да обясним на машина какво е лице, да го вградим и компресираме. И ако сте наясно с машинното самообучение, ще разберете какво предизвикателство беше това.

Now, an interesting challenge: Can we predict a human face? It's a little complicated, because a human face is scattered among millions of these letters. And a human face is not a very well-defined object. So, we had to build an entire tier of it to learn and teach a machine what a face is, and embed and compress it. And if you're comfortable with machine learning, you understand what the challenge is here.

Сега, след 15 години - 15 години, след като прочетохме първата секвенция, през този октомври започнахме да виждаме някои сигнали. И беше много емоционален момент. Това, което виждате тук, е субект, който дойде в лабораторията ни. Това за нас е лице. Ние взимаме истинското лице на субекта, намаляваме сложността му, защото не всичко е в лицето - много от чертите, дефектите и асиметриите идват от живота ви. Ние правим лицето симетрично и пускаме алгоритъма си. При резултатите, които сега ви показвам, това е предвиждането, което получаваме от кръвта.

Now, after 15 years -- 15 years after we read the first sequence -- this October, we started to see some signals. And it was a very emotional moment. What you see here is a subject coming in our lab. This is a face for us. So we take the real face of a subject, we reduce the complexity, because not everything is in your face -- lots of features and defects and asymmetries come from your life. We symmetrize the face, and we run our algorithm. The results that I show you right now, this is the prediction we have from the blood.

(Аплодисменти)

(Applause)

Изчакайте секунда. През тези секунди очите ви гледат вляво и вдясно, вляво и вдясно и мозъкът ви иска тези картини да са идентични. Така че ви моля да направите друго упражнение. Моля ви, търсете разликите, а те са много. Най-много сигнал идва от пола, след това възрастта, индекса на телесната маса, етническия компонент на човек. И да погледнем отвъд този сигнал е много по-сложно. Но това, което виждате тук, дори и в разликите, ви показва, че сме в правилния диапазон, че се приближаваме. И това вече ви предава някакви емоции.

Wait a second. In these seconds, your eyes are watching, left and right, left and right, and your brain wants those pictures to be identical. So I ask you to do another exercise, to be honest. Please search for the differences, which are many. The biggest amount of signal comes from gender, then there is age, BMI, the ethnicity component of a human. And scaling up over that signal is much more complicated. But what you see here, even in the differences, lets you understand that we are in the right ballpark, that we are getting closer. And it's already giving you some emotions.

Това е друг субект, който е на ред, а това е прогнозата. Малко по-малко лице, не получихме цялата черепна структура, но все пак е близко. Това е субектът, който дойде в лабораторията ни, а това е прогнозата. Тези хора никога не са виждани по време на обучаването на машината. Те са така нареченият "резерв". Но това са хора, на които вероятно никога няма да повярвате. Ние публикуваме всичко в научна публикация, можете да я прочетете.

This is another subject that comes in place, and this is a prediction. A little smaller face, we didn't get the complete cranial structure, but still, it's in the ballpark. This is a subject that comes in our lab, and this is the prediction. So these people have never been seen in the training of the machine. These are the so-called "held-out" set. But these are people that you will probably never believe. We're publishing everything in a scientific publication, you can read it.

Но понеже сме на сцената, Крис ме предизвика. Вероятно се издадох и се опитах да предвидя някого, когото може би ще разпознаете. В тази епруветка с кръв - и повярвайте ми, нямате идея какво трябваше да направим, за да имаме тази кръв сега, тук, та в тази епруветка с кръв е количеството биологична информация, което ни е нужно за пълна геномна секвенция. Трябва ни само това количество. Изпълнихме тази секвенция и сега ще го направя с вас. Започваме да наслагваме всичкото знание, което имаме. В епруветката с кръв предсказахме, че е мъж. И субектът е мъж. Предсказахме, че е висок 1,76 м. Субектът е 1,77 м. Предсказахме, че тежи 76 кг. субектът е 82 кг. Предсказахме възрастта му, 38 г. Субектът е на 35 г. Предсказахме цвета на очите му. Прекалено тъмни. Предсказахме цвета на кожата му. Почти свършихме. Това е лицето му.

But since we are onstage, Chris challenged me. I probably exposed myself and tried to predict someone that you might recognize. So, in this vial of blood -- and believe me, you have no idea what we had to do to have this blood now, here -- in this vial of blood is the amount of biological information that we need to do a full genome sequence. We just need this amount. We ran this sequence, and I'm going to do it with you. And we start to layer up all the understanding we have. In the vial of blood, we predicted he's a male. And the subject is a male. We predict that he's a meter and 76 cm. The subject is a meter and 77 cm. So, we predicted that he's 76; the subject is 82. We predict his age, 38. The subject is 35. We predict his eye color. Too dark. We predict his skin color. We are almost there. That's his face.

Сега, моментът на разкритието: Субектът е този човек.

Now, the reveal moment: the subject is this person.

(Смях)

(Laughter)

Направих го нарочно. Аз съм от много особен и чудат етнос. Южноевропейците, италианците - те никога не се вписват в модели. А е и специално този етнос е сложен страничен случай за нашия модел. Но има друга идея. Едно от нещата, които много използваме, за да разпознаем хора, никога няма да бъде записано в генома. Това е свободната ни воля - това, как изглеждам. Не прическата ми в този случай, а брадата. Ще ви покажа, в този случай ще я пренеса - и това не е нищо повече от Фотошоп, никакви модели: ще пренеса брадата върху субекта. И това веднага се усеща много, много по-добре.

And I did it intentionally. I am a very particular and peculiar ethnicity. Southern European, Italians -- they never fit in models. And it's particular -- that ethnicity is a complex corner case for our model. But there is another point. So, one of the things that we use a lot to recognize people will never be written in the genome. It's our free will, it's how I look. Not my haircut in this case, but my beard cut. So I'm going to show you, I'm going to, in this case, transfer it -- and this is nothing more than Photoshop, no modeling -- the beard on the subject. And immediately, we get much, much better in the feeling.

Защо правим това? Със сигурност не за да предскажем височина или да направим красива снимка на кръвта ви. Правим го, защото същата технология и същият подход - машинното самообучение на този код, ни помагат да разберем как работим, как тялото ви работи, как остарява, как болестите се зараждат в тялото ви, как ракът ви расте и се развива, как работят лекарствата и дали работят за вашето тяло.

So, why do we do this? We certainly don't do it for predicting height or taking a beautiful picture out of your blood. We do it because the same technology and the same approach, the machine learning of this code, is helping us to understand how we work, how your body works, how your body ages, how disease generates in your body, how your cancer grows and develops, how drugs work and if they work on your body.

Това е огромно предизвикателство. Това е предизвикателство, което споделяме с хиляди други изследователи по света. Нарича се персонализирана медицина. Това е способността да преминем от статистически подход, където човек е само капка в океана, към персонализиран подход, където четем всички тези книги и придобиваме представа какви сте точно. Но това е особено сложно предизвикателство, защото от всички тези книги към днешна дата са ни известни само може би два процента, четири книги от над 175.

This is a huge challenge. This is a challenge that we share with thousands of other researchers around the world. It's called personalized medicine. It's the ability to move from a statistical approach where you're a dot in the ocean, to a personalized approach, where we read all these books and we get an understanding of exactly how you are. But it is a particularly complicated challenge, because of all these books, as of today, we just know probably two percent: four books of more than 175.

И това не е темата на моята лекция, защото ние ще научим повече. Най-добрите умове по света работят по темата. Прогнозите ще се подобрят, моделът ще стане по-точен. И колкото повече учим, толкова повече ще бъдем изправяни пред решения, които никога преди не ни се е налагало да взимаме: за живота, за смъртта, за това да бъдеш родител.

And this is not the topic of my talk, because we will learn more. There are the best minds in the world on this topic. The prediction will get better, the model will get more precise. And the more we learn, the more we will be confronted with decisions that we never had to face before about life, about death, about parenting.

Докосваме се до вътрешността на това как работи животът. И това е революция, която не може да бъде ограничена до областта на науката или технологиите. Това трябва да е глобална дискусия. Трябва да започнем да обмисляме бъдещето, което градим като човечество. Трябва да общуваме с хора на изкуството, с философи, с политици. Всички са замесени, защото това е бъдещето на нашия вид. Без страх, но разбирайки, че решенията, които ще направим през следващата година, ще променят хода на историята завинаги.

So, we are touching the very inner detail on how life works. And it's a revolution that cannot be confined in the domain of science or technology. This must be a global conversation. We must start to think of the future we're building as a humanity. We need to interact with creatives, with artists, with philosophers, with politicians. Everyone is involved, because it's the future of our species. Without fear, but with the understanding that the decisions that we make in the next year will change the course of history forever.

Благодаря ви.

Thank you.

(Аплодисменти)

(Applause)

For the next 16 minutes, I'm going to take you on a journey that is probably the biggest dream of humanity: to understand the code of life.

I was doing physics, I was coming back home and I realized that I actually always knew a 3D printer. And everyone does. It was my mom.

(Смях)

(Laughter)

(Аплодисменти)

(Applause)

(Аплодисменти)

(Applause)

(Смях)

(Laughter)

"ААГ, ААТ, АТА."

"AAG, AAT, ATA."

To you it sounds like mute letters, but this sequence gives the color of the eyes to Craig. I'll show you another part of the book. This is actually a little more complicated.

Хромозома 14, книга 132:

Chromosome 14, book 132:

(Смях)

(Laughter)

Както може да се очаква.

As you might expect.

(Смях)

(Laughter)

"ААТ, ЦТТ, ГАТТ."

"ATT, CTT, GATT."

(Смях)

(Laughter)

(Аплодисменти)

(Applause)

Сега, моментът на разкритието: Субектът е този човек.

Now, the reveal moment: the subject is this person.

(Смях)

(Laughter)

Благодаря ви.

Thank you.

(Аплодисменти)

(Applause)

Riccardo Sabatini: How to read the genome and build a human being

Riccardo Sabatini: How to read the genome and build a human being

Related talks

Jennifer Doudna: How CRISPR lets us edit our DNA

Craig Venter: Watch me unveil "synthetic life"

Juan Enriquez: We can reprogram life. How to do it wisely

Christoph Adami: Finding life we can't imagine

Juan Enriquez: The age of genetic wonder

Rob Reid: How synthetic biology could wipe out humanity -- and how we can stop it

Related talks

Jennifer Doudna: How CRISPR lets us edit our DNA

Craig Venter: Watch me unveil "synthetic life"

Juan Enriquez: We can reprogram life. How to do it wisely

Christoph Adami: Finding life we can't imagine

Juan Enriquez: The age of genetic wonder

Rob Reid: How synthetic biology could wipe out humanity -- and how we can stop it