For the next 16 minutes, I'm going to take you on a journey that is probably the biggest dream of humanity: to understand the code of life.
앞으로 16분 동안 저는 여러분께 인류의 가장 큰 소원을 향한 여행을 보여드리겠습니다. 생명의 암호를 이해하는 것입니다.
So for me, everything started many, many years ago when I met the first 3D printer. The concept was fascinating. A 3D printer needs three elements: a bit of information, some raw material, some energy, and it can produce any object that was not there before.
모든 것의 시작은 아주 아주 오래전 최초의 3D 프린터를 본 것이었습니다. 제겐 이 장치가 놀라웠습니다. 3D 프린터엔 세 가지가 필요합니다. 대상의 정보, 출력을 위한 재료, 그리고 에너지만 있으면 이전에는 없었던 것을 만들어 낼 수 있습니다.
I was doing physics, I was coming back home and I realized that I actually always knew a 3D printer. And everyone does. It was my mom.
물리를 공부하던 저는 집으로 오는 길에 제 주변에 3D 프린터가 있었다는 것을 깨달았습니다. 모두 압니다. 바로 어머니입니다.
(Laughter)
(웃음)
My mom takes three elements: a bit of information, which is between my father and my mom in this case, raw elements and energy in the same media, that is food, and after several months, produces me. And I was not existent before.
어머니도 세 가지가 필요합니다. 먼저 대상의 정보는 부모님이 함께 주시고 출력 재료와 에너지는 음식에서 나오죠. 그리고 몇 달을 거쳐 제가 태어납니다. 저는 이전까진 존재하지 않았죠.
So apart from the shock of my mom discovering that she was a 3D printer, I immediately got mesmerized by that piece, the first one, the information. What amount of information does it take to build and assemble a human? Is it much? Is it little? How many thumb drives can you fill?
제 어머니가 알고 보니 3D 프린터라는 충격은 둘째 치고요. 저는 세 가지 요소 중 첫 번째인 대상의 정보에 매혹됐습니다. 사람 한 명을 만들려면 정보가 얼마나 필요할까요? 많이? 적게? USB 메모리론 몇 개일까요?
Well, I was studying physics at the beginning and I took this approximation of a human as a gigantic Lego piece. So, imagine that the building blocks are little atoms and there is a hydrogen here, a carbon here, a nitrogen here. So in the first approximation, if I can list the number of atoms that compose a human being, I can build it. Now, you can run some numbers and that happens to be quite an astonishing number. So the number of atoms, the file that I will save in my thumb drive to assemble a little baby, will actually fill an entire Titanic of thumb drives -- multiplied 2,000 times. This is the miracle of life. Every time you see from now on a pregnant lady, she's assembling the biggest amount of information that you will ever encounter. Forget big data, forget anything you heard of. This is the biggest amount of information that exists.
물리를 전공한 사람으로서 저는 사람을 거대한 레고 작품이라고 가정했습니다. 여기서 블록들을 작은 원자라고 생각하세요. 여기엔 수소가 있고, 탄소가 있고, 질소도 있겠죠. 가정에 의하면 제가 사람을 구성하는 원자들을 나열할 수 있다면 사람을 만들 수도 있겠지요. 여기서 약간 계산을 해보면 천문학적으로 큰 수가 나옵니다. 아기 한 명을 만들기 위해 필요한 원자의 수를 USB 드라이브에 저장하면 드라이브들로 타이타닉 한 척을 채우고 2,000척을 더 채울 수 있습니다. 이것이 생명의 신비입니다. 여러분들은 앞으로 임산부를 볼 때마다 우리가 평생 볼 최대의 정보를 그녀가 처리하는 것을 보게 되는 것입니다. 빅데이터나 다른 것들은 모두 잊으세요. 이것은 존재하는 가장 많은 양의 정보입니다.
(Applause)
(박수)
But nature, fortunately, is much smarter than a young physicist, and in four billion years, managed to pack this information in a small crystal we call DNA. We met it for the first time in 1950 when Rosalind Franklin, an amazing scientist, a woman, took a picture of it. But it took us more than 40 years to finally poke inside a human cell, take out this crystal, unroll it, and read it for the first time. The code comes out to be a fairly simple alphabet, four letters: A, T, C and G. And to build a human, you need three billion of them. Three billion. How many are three billion? It doesn't really make any sense as a number, right?
다행히 자연은 저 같은 물리학자보단 훨씬 현명해서 40억 년의 시간을 들여 이 정보들을 DNA라 불리는 작은 결정으로 압축했습니다. 처음으로 DNA가 알려진 것은 1950년 놀라운 과학자이자 여성이었던 로잘린 프랭클린이 사진을 찍어서였습니다. 하지만 이로부터 40년이 넘는 시간이 지나서야 우리는 인체 세포에서 이 결정을 분리하고 분석하여 내용을 읽을 수 있었습니다. 암호는 간단하게 알파벳 4개로 이루어졌습니다. A, T, C, G로요. 사람을 만들기 위해서는 알파벳이 30억 개 필요합니다. 30억입니다. 느낌이 오시나요? 숫자로 말하니 느낌이 안 오시죠?
So I was thinking how I could explain myself better about how big and enormous this code is. But there is -- I mean, I'm going to have some help, and the best person to help me introduce the code is actually the first man to sequence it, Dr. Craig Venter. So welcome onstage, Dr. Craig Venter.
그래서 저는 어떻게 하면 이 암호의 거대함, 방대함을 이해할지 고민해보았습니다. 도움을 받으면 방법이 있긴 합니다. 그리고 이에 가장 적절한 분은 최초로 DNA 순서를 밝혀낸 크레이그 벤터 박사님이십니다. 올라오세요, 크레이그 벤터 박사님!
(Applause)
(박수)
Not the man in the flesh, but for the first time in history, this is the genome of a specific human, printed page-by-page, letter-by-letter: 262,000 pages of information, 450 kilograms, shipped from the United States to Canada thanks to Bruno Bowden, Lulu.com, a start-up, did everything. It was an amazing feat.
본인이 오시진 않았지만 인류 역사 최초로 한 특정인의 유전자 전체를 페이지마다 알파벳으로 채워서 인쇄한 책입니다. 장수는 262,000장에, 무게는 450kg입니다. 미국에서 캐나다까지 운반하는 데에는 신진 기업 Lulu.com의 브루노 보우덴 님이 고생해주셨습니다. 큰 도움을 받았습니다.
But this is the visual perception of what is the code of life. And now, for the first time, I can do something fun. I can actually poke inside it and read. So let me take an interesting book ... like this one. I have an annotation; it's a fairly big book. So just to let you see what is the code of life. Thousands and thousands and thousands and millions of letters. And they apparently make sense. Let's get to a specific part. Let me read it to you:
이것이 바로 생명의 암호를 시각적으로 나타낸 것입니다. 이제 저는 역사 최초로 놀이를 할 수 있습니다. 꺼내서 아무 부분이나 읽어보는 거죠. 여기 이 책은 제가 좋아하는 책입니다. 워낙에 책이 방대해서 주석도 좀 달았습니다. 생명의 암호를 살짝 보여드리죠. 많고도 많고도 많은 산더미 같은 글자들입니다. 그리고 모든 부분은 의미가 있어요. 이 부분을 한 번 봅시다. 제가 읽어드릴게요.
(Laughter)
(웃음)
"AAG, AAT, ATA."
"AAG, AAT, ATA."
To you it sounds like mute letters, but this sequence gives the color of the eyes to Craig. I'll show you another part of the book. This is actually a little more complicated.
그냥 글자의 배열로 들리시겠지만 이 부분은 크레이그의 눈에 색깔을 부여합니다. 다른 부분도 보여드리지요. 이 구절은 조금 더 복잡합니다.
Chromosome 14, book 132:
132권, 염색체 14의 내용입니다.
(Laughter)
(웃음)
As you might expect.
예상하신 분도 계시겠죠.
(Laughter)
(웃음)
"ATT, CTT, GATT."
"ATT, CTT, GATT."
This human is lucky, because if you miss just two letters in this position -- two letters of our three billion -- he will be condemned to a terrible disease: cystic fibrosis. We have no cure for it, we don't know how to solve it, and it's just two letters of difference from what we are.
이 사람은 운이 좋습니다. 왜냐면 이 부분에서 두 자만 빠지면 30억 자에서 두 자만 빠져도 낭포성 섬유증이란 끔찍한 질병에 걸리기 때문입니다. 치료법도 없고 해결법도 모릅니다. 모두 두 자의 차이만으로 생기는 일입니다.
A wonderful book, a mighty book, a mighty book that helped me understand and show you something quite remarkable. Every one of you -- what makes me, me and you, you -- is just about five million of these, half a book. For the rest, we are all absolutely identical. Five hundred pages is the miracle of life that you are. The rest, we all share it. So think about that again when we think that we are different. This is the amount that we share.
매혹적이고, 강렬한 책이지요. 제가 생명을 이해하는 것을 돕고 여러분께 알려드리게 해준 책입니다. 우리 모두를 저는 저로, 여러분은 여러분으로 만드는 부분은 500만 글자로 한권의 절반 정도입니다. 책의 나머지 부분은 정확히 같습니다. 여러분을 만드는 기적은 단 500페이지 안에서 벌어집니다. 나머지는 똑같이 일치합니다. 그러니 서로가 다르다는 생각이 들 때 떠올리십시오. 우리는 이만큼이나 같습니다.
So now that I have your attention, the next question is: How do I read it? How do I make sense out of it? Well, for however good you can be at assembling Swedish furniture, this instruction manual is nothing you can crack in your life.
흥미가 생긴 분이 많아진 것 같군요. 다음 문제는 이 책을 어떻게 읽느냐입니다. 어떻게 이해해야 할까요? 여러분이 스웨덴산 가구를 얼마나 잘 조립하는지와 상관없이 이것은 일생을 바쳐도 풀 수 없을 겁니다.
(Laughter)
(웃음)
And so, in 2014, two famous TEDsters, Peter Diamandis and Craig Venter himself, decided to assemble a new company. Human Longevity was born, with one mission: trying everything we can try and learning everything we can learn from these books, with one target -- making real the dream of personalized medicine, understanding what things should be done to have better health and what are the secrets in these books.
그래서 2014년 유명한 TED 강연자이신 피터 다이아맨디스와 크레이그 벤터는 회사를 설립하기로 했습니다. ‘Human Longevity’는 한 목적 만을 위해 생겼습니다. 필요한 모든 수단을 이용하여 이 책에서 가능한 한 모든 것을 배우는 것입니다. 맞춤형 의약의 현실화란 한 목적을 위해서요. 이를 위해 인류의 건강을 위한 과제를 찾고 책에 숨겨진 비밀을 찾는 것입니다.
An amazing team, 40 data scientists and many, many more people, a pleasure to work with. The concept is actually very simple. We're going to use a technology called machine learning. On one side, we have genomes -- thousands of them. On the other side, we collected the biggest database of human beings: phenotypes, 3D scan, NMR -- everything you can think of. Inside there, on these two opposite sides, there is the secret of translation. And in the middle, we build a machine. We build a machine and we train a machine -- well, not exactly one machine, many, many machines -- to try to understand and translate the genome in a phenotype. What are those letters, and what do they do? It's an approach that can be used for everything, but using it in genomics is particularly complicated. Little by little we grew and we wanted to build different challenges. We started from the beginning, from common traits. Common traits are comfortable because they are common, everyone has them.
저희 팀은 40명의 데이터 과학자와 더 많은 사람으로 이루어졌습니다. 모두 존경스러운 분들이죠. 저희의 접근법은 사실 굉장히 간단합니다. 저희는 기계 학습이라는 기술을 사용합니다. 먼저 유전자를 수천 개 채취하고 동시에 인간에 관한 모든 정보를 조사합니다. 표현형, 3D 스캔, NMR을 포함한 모든 것을요. 이 두 개 사이에 유전자를 읽기 위한 비밀이 있겠죠. 그리고 이 단계에서 기계가 사용됩니다. 기계를 만들고, 훈련합니다. 한 개가 아닌 엄청난 수의 기계들을 유전자의 내용으로부터 표현형을 찾도록 훈련합니다. 각 DNA 알파벳은 무엇이고 어떤 역할을 하는지 조사하도록 말이죠. 기계 학습은 모든 분야에서 사용되지만, 유전체학에서 사용하는 것은 특히 어렵습니다. 조금씩 성과를 내면서 저희는 과제들을 확장해갔습니다. 먼저 인간의 일반적 특징부터 해독했습니다. 일반적 특징은 모두가 가진 특징이어서 다루기 편해서이죠.
So we started to ask our questions: Can we predict height? Can we read the books and predict your height? Well, we actually can, with five centimeters of precision. BMI is fairly connected to your lifestyle, but we still can, we get in the ballpark, eight kilograms of precision. Can we predict eye color? Yeah, we can. Eighty percent accuracy. Can we predict skin color? Yeah we can, 80 percent accuracy. Can we predict age? We can, because apparently, the code changes during your life. It gets shorter, you lose pieces, it gets insertions. We read the signals, and we make a model.
과제들은 다음과 같았습니다. 키를 예측할 수 있을까? 이 책에서 사람의 키를 알 수 있을까? 정말 가능한 일이더군요. 5cm 오차로요. 체질량지수는 생활습관에 좌우됩니다만 여전히 8kg 오차로 얼추 맞더군요. 눈 색깔도 알까요? 가능합니다. 80%로요. 피부 색깔은요? 역시 80%로 가능합니다. 나이도 될까요? 그럼요. 세월이 지나면서 암호가 바뀌거든요. 짧아지고, 내용이 빠지고, 들어가기도 하지요. 이런 징후를 찾아서 모델화하면 가능합니다.
Now, an interesting challenge: Can we predict a human face? It's a little complicated, because a human face is scattered among millions of these letters. And a human face is not a very well-defined object. So, we had to build an entire tier of it to learn and teach a machine what a face is, and embed and compress it. And if you're comfortable with machine learning, you understand what the challenge is here.
이제 재밌는 내용이 나옵니다. 사람의 얼굴을 알 수 있을까요? 이 과제가 어려운 이유는 얼굴을 이루는 부분이 책 곳곳에 퍼져있기 때문입니다. 얼굴이란 개념 자체가 명확하지 않기도 하고요. 그래서 먼저 얼굴을 정의해서 기계에 가르치고 코딩, 압축하는 일을 모두 해야 했습니다. 기계 학습을 잘 아시는 분이시면 이 과정이 얼마나 힘들지 아실 겁니다.
Now, after 15 years -- 15 years after we read the first sequence -- this October, we started to see some signals. And it was a very emotional moment. What you see here is a subject coming in our lab. This is a face for us. So we take the real face of a subject, we reduce the complexity, because not everything is in your face -- lots of features and defects and asymmetries come from your life. We symmetrize the face, and we run our algorithm. The results that I show you right now, this is the prediction we have from the blood.
그리고 인류가 DNA 배열을 알아낸 지 15년이 지나서 올해 10월부터 실마리가 보이기 시작했습니다. 아주 감동적인 순간이었습니다. 이 얼굴은 우리 연구원 한 명의 얼굴입니다. 기계로 예측해야 할 얼굴이죠. 실제 사진을 찍고 단순화 과정을 조금 거쳤습니다. 얼굴에 있는 많은 특징, 흠, 비대칭 구조가 생후에 생긴 것이기 때문이죠. 얼굴을 대칭 구조로 편집한 후 알고리즘을 실행합니다. 지금 보여드리는 이미지는 혈액에서 얼굴을 예상한 결과입니다.
(Applause)
(박수)
Wait a second. In these seconds, your eyes are watching, left and right, left and right, and your brain wants those pictures to be identical. So I ask you to do another exercise, to be honest. Please search for the differences, which are many. The biggest amount of signal comes from gender, then there is age, BMI, the ethnicity component of a human. And scaling up over that signal is much more complicated. But what you see here, even in the differences, lets you understand that we are in the right ballpark, that we are getting closer. And it's already giving you some emotions.
잠시만요. 여러분들은 지금 두 이미지를 좌우로 번갈아 보면서 속으로 두 사진이 당연히 같을 것이라 여길 수 있습니다. 저는 여러분이 정직하게 보시길 바랍니다. 차이점들을 찾아보시기 바랍니다. 비슷한지를 판단하는 기준은 성별, 나이, 체질량지수, 민족성으로 크게 나뉘겠죠. 그 사이에서 중요도를 따지는 것은 더 복잡할 것입니다. 하지만 차이들을 생각해도 결과를 보시면 저희가 목표로 제대로 가고 있고 근접해감을 아실 겁니다. 감동을 하신 분도 계실 것입니다.
This is another subject that comes in place, and this is a prediction. A little smaller face, we didn't get the complete cranial structure, but still, it's in the ballpark. This is a subject that comes in our lab, and this is the prediction. So these people have never been seen in the training of the machine. These are the so-called "held-out" set. But these are people that you will probably never believe. We're publishing everything in a scientific publication, you can read it.
다른 실험대상의 사진과 예상결과입니다. 얼굴이 좀 작게 나왔고 두상이 완전하지는 않지만 여전히 대체로 같습니다. 다른 연구원의 사진과 예상결과입니다. 저희는 기계를 훈련하면서 이 얼굴들을 보여주지 않았습니다. 이렇게 테스트와 훈련이 분리된 것을 “헬드 아웃”이라 합니다. 하지만 모르는 사람들의 얼굴만 봐서는 믿음이 안 가시겠죠. 저희는 저널에 관련정보를 모두 기고하고 있으니 읽어보실 수 있습니다.
But since we are onstage, Chris challenged me. I probably exposed myself and tried to predict someone that you might recognize. So, in this vial of blood -- and believe me, you have no idea what we had to do to have this blood now, here -- in this vial of blood is the amount of biological information that we need to do a full genome sequence. We just need this amount. We ran this sequence, and I'm going to do it with you. And we start to layer up all the understanding we have. In the vial of blood, we predicted he's a male. And the subject is a male. We predict that he's a meter and 76 cm. The subject is a meter and 77 cm. So, we predicted that he's 76; the subject is 82. We predict his age, 38. The subject is 35. We predict his eye color. Too dark. We predict his skin color. We are almost there. That's his face.
그래서 크리스가 제게 제안을 하더군요. 강연에서 여러분이 아는 사람의 분석 결과를 비교해보라고요. 자, 여기 혈액 한 병이 있고 지금 여러분은 이게 누구 것인지 전혀 모르십니다. 이 한 병에는 저희가 유전자 분석을 완벽하게 할 수 있는 양의 생물학적 정보가 있습니다. 이 양이면 충분합니다. 분석 결과를 여러분께 보여드리겠습니다. 결과들을 하나씩 살펴봅시다. 혈액에서 대상이 남성일 것이라 예상했습니다. 맞아요. 남성이죠. 키를 1m 76cm라 예상했네요. 실제 대상은 1m 77cm에요. 예상은 76kg이었고 실제는 82kg에요. 나이는 38세로 나왔군요. 사실은 35세죠. 눈의 색깔 예상 결과입니다. 좀 어둡네요. 예상한 피부색입니다. 거의 근접했네요. 예상한 얼굴입니다.
Now, the reveal moment: the subject is this person.
이제 정답을 공개합니다. 대상은 이 사람이었습니다.
(Laughter)
(웃음)
And I did it intentionally. I am a very particular and peculiar ethnicity. Southern European, Italians -- they never fit in models. And it's particular -- that ethnicity is a complex corner case for our model. But there is another point. So, one of the things that we use a lot to recognize people will never be written in the genome. It's our free will, it's how I look. Not my haircut in this case, but my beard cut. So I'm going to show you, I'm going to, in this case, transfer it -- and this is nothing more than Photoshop, no modeling -- the beard on the subject. And immediately, we get much, much better in the feeling.
저를 택한 건 의도적이었습니다. 먼저 저는 매우 특별한 민족에 속해있습니다. 남유럽, 이탈리아인은 모델에 잘 맞지 않습니다. 남유럽인은 저희 모델의 난점 중 하나입니다. 다른 이유도 있습니다. 사실 저희가 사람을 알아볼 때는 유전자의 배열을 고려하진 않죠. 바로 보이는 그대로 판단하죠. 제 경우엔 제 특이한 수염에 집중하게 되죠. 그래서 조금 이미지를 편집해서 보여드리겠습니다. 별건 아니고 포토샵으로 작업해서 수염을 합성한 겁니다. 한순간에 훨씬 더 비슷하게 변했죠.
So, why do we do this? We certainly don't do it for predicting height or taking a beautiful picture out of your blood. We do it because the same technology and the same approach, the machine learning of this code, is helping us to understand how we work, how your body works, how your body ages, how disease generates in your body, how your cancer grows and develops, how drugs work and if they work on your body.
저희는 왜 이런 일을 할까요? 혈액으로부터 키를 예측하거나 놀라운 사진을 만들기 위해선 아닙니다. 그 이유는 이 과정과 같은 기술과 접근법을 가지고 같은 기계 학습 코드로 어떻게 우리가 작동하는지 어떻게 몸이 작동하고 어떻게 나이가 들고 어떻게 병이 들고 어떻게 암이 퍼지고 약이 어떻게 몸에 작용하는지 알 수 있기 때문입니다.
This is a huge challenge. This is a challenge that we share with thousands of other researchers around the world. It's called personalized medicine. It's the ability to move from a statistical approach where you're a dot in the ocean, to a personalized approach, where we read all these books and we get an understanding of exactly how you are. But it is a particularly complicated challenge, because of all these books, as of today, we just know probably two percent: four books of more than 175.
이건 몹시 어려운 과제입니다. 이 과제는 세계 전역에서 수천 명이 함께 답을 찾고 있습니다. 맞춤형 의약이라는 과제입니다. 이것은 의약의 통계적인 접근에서, 말하자면 여러분 각각은 작은 의미뿐인 방법에서 개개인에 맞춘 접근으로 이 책에 쓰인 내용을 토대로 우리가 정확히 여러분의 상태를 이해하는 능력인 것입니다. 이 과정은 매우 복잡합니다. 실제로 모든 책에서 오늘까지 우리가 이해하는 부분은 2%에 불과합니다. 175권 중 4권 분량이죠.
And this is not the topic of my talk, because we will learn more. There are the best minds in the world on this topic. The prediction will get better, the model will get more precise. And the more we learn, the more we will be confronted with decisions that we never had to face before about life, about death, about parenting.
이는 제가 하고싶은 이야기는 아니지만 앞으로 연구하면서 더 알게 될 것입니다. 세계 최고의 석학들이 연구하고 있습니다. 예상은 더 잘 맞고 모델은 더 정확해질 것입니다. 더 다양한 지식을 쌓을수록 인류는 이전까지는 선택할 수 없었던 삶, 죽음, 육아에 관한 선택을 할 수 있게 될 것입니다.
So, we are touching the very inner detail on how life works. And it's a revolution that cannot be confined in the domain of science or technology. This must be a global conversation. We must start to think of the future we're building as a humanity. We need to interact with creatives, with artists, with philosophers, with politicians. Everyone is involved, because it's the future of our species. Without fear, but with the understanding that the decisions that we make in the next year will change the course of history forever.
저희는 삶이 작동하는 원리의 핵심에 다가가고 있습니다. 이렇게 큰 혁명을 일으킬 발견을 과학기술의 영역에만 가두어선 안 됩니다. 전 영역의 소통이 필요합니다. 저희는 한 인류로서 함께 만들어갈 미래를 생각해야 합니다. 작가, 예술가, 철학가, 정치인이 협력해야 합니다. 모두 함께여야 합니다. 이것은 인류의 미래이기 때문입니다. 두려움을 떨쳐내고 앞으로 우리가 내릴 선택이 역사를 영원히 바꿀 것이란 책임감을 느끼고 나아가야 합니다.
Thank you.
감사합니다.
(Applause)
(박수)