So you go to the doctor and get some tests. The doctor determines that you have high cholesterol and you would benefit from medication to treat it. So you get a pillbox. You have some confidence, your physician has some confidence that this is going to work. The company that invented it did a lot of studies, submitted it to the FDA. They studied it very carefully, skeptically, they approved it. They have a rough idea of how it works, they have a rough idea of what the side effects are. It should be OK. You have a little more of a conversation with your physician and the physician is a little worried because you've been blue, haven't felt like yourself, you haven't been able to enjoy things in life quite as much as you usually do. Your physician says, "You know, I think you have some depression. I'm going to have to give you another pill."
Вы идёте к врачу и сдаёте анализы. Доктор говорит вам, что у вас высокий холестерин и что необходимо принимать определённые препараты. Вы получаете пузырёк с таблетками. Вы не сомневаетесь: врач уверен, что лекарство сработает. Компания, которая его выпускает, провела исследования, прошла сертификацию, препарат внимательно изучили и одобрили. У них есть общее представление о его действии, примерное представление о побочных эффектах. Всё должно быть в порядке. Вы поговорили со своим врачом ещё немного, и он забеспокоился, потому что вы подавлены, чувствуете себя не очень, перестали радоваться привычным вещам. Он говорит: «Знаете, я думаю, что у вас небольшая депрессия. Я пропишу вам ещё таблетки».
So now we're talking about two medications. This pill also -- millions of people have taken it, the company did studies, the FDA looked at it -- all good. Think things should go OK. Think things should go OK. Well, wait a minute. How much have we studied these two together?
То есть сейчас мы говорим уже о двух препаратах. И со вторым всё то же самое — миллионы людей его принимают, компания проводила исследования, они прошли все тесты — всё в порядке. Проблем вроде бы быть не должно. Проблем вроде бы быть не должно. Но подождите. Как долго мы изучали их взаимодействие?
Well, it's very hard to do that. In fact, it's not traditionally done. We totally depend on what we call "post-marketing surveillance," after the drugs hit the market. How can we figure out if bad things are happening between two medications? Three? Five? Seven? Ask your favorite person who has several diagnoses how many medications they're on.
Это очень сложно. На самом деле никто этого обычно не делает. Мы полностью зависим от так называемого «постмаркетингового наблюдения», после того как препарат вышел на рынок. Но как мы можем выяснить, что эти два препарата взаимодействуют как-то не так? Эти три? Пять? Семь? Спросите близких людей с несколькими диагнозами, сколько препаратов они принимают.
Why do I care about this problem? I care about it deeply. I'm an informatics and data science guy and really, in my opinion, the only hope -- only hope -- to understand these interactions is to leverage lots of different sources of data in order to figure out when drugs can be used together safely and when it's not so safe.
Почему меня волнует эта проблема? Она меня очень волнует. Я учёный-информатик и аналитик данных, и по-моему, единственная надежда понять эти взаимодействия — это поднять огромное количество источников информации, чтобы выяснить, какие препараты безопасно использовать вместе, а какие нет.
So let me tell you a data science story. And it begins with my student Nick. Let's call him "Nick," because that's his name.
Я хочу рассказать историю об анализе данных. Всё началось с моего студента Ника. Давайте назовём его «Ник», потому что так его зовут.
(Laughter)
(Смех)
Nick was a young student. I said, "You know, Nick, we have to understand how drugs work and how they work together and how they work separately, and we don't have a great understanding. But the FDA has made available an amazing database. It's a database of adverse events. They literally put on the web -- publicly available, you could all download it right now -- hundreds of thousands of adverse event reports from patients, doctors, companies, pharmacists. And these reports are pretty simple: it has all the diseases that the patient has, all the drugs that they're on, and all the adverse events, or side effects, that they experience. It is not all of the adverse events that are occurring in America today, but it's hundreds and hundreds of thousands of drugs.
Он был молодым студентом. Я сказал: «Знаешь, Ник, нам нужно понять, как работают лекарства, как они работают вместе, как отдельно, ведь мы это очень плохо понимаем». А теперь FDA выложила прекрасную базу данных. Это база случаев, связанных с побочными эффектами. Они просто выложили её в интернет — она доступна, её можно скачать прямо сейчас: сотни тысяч отчётов и жалоб от пациентов, врачей, компаний, фармацевтов. И они все довольно простые: в них написано, какие заболевания есть у пациента, какие препараты он принимал и все негативные последствия, которые они испытали. Это не всё, что сегодня происходит в Америке, но это сотни и сотни тысяч препаратов.
So I said to Nick, "Let's think about glucose. Glucose is very important, and we know it's involved with diabetes. Let's see if we can understand glucose response. I sent Nick off. Nick came back.
Так что я сказал Нику: «Возьмём, например, глюкозу. Глюкоза очень важна, мы знаем, что она связана с диабетом. Давай посмотрим, понимаем ли мы ответную реакцию на неё». Я отправил Ника работать. Ник пришёл обратно.
"Russ," he said, "I've created a classifier that can look at the side effects of a drug based on looking at this database, and can tell you whether that drug is likely to change glucose or not."
«Расс, — говорит он мне, — Я создал классификатор, позволяющий посмотреть побочные эффекты препарата, согласно этой базе данных, и он показывает, будет ли препарат менять уровень глюкозы или нет».
He did it. It was very simple, in a way. He took all the drugs that were known to change glucose and a bunch of drugs that don't change glucose, and said, "What's the difference in their side effects? Differences in fatigue? In appetite? In urination habits?" All those things conspired to give him a really good predictor. He said, "Russ, I can predict with 93 percent accuracy when a drug will change glucose."
Он сделал это. Это было довольно просто. Он взял все препараты, которые меняют уровень глюкозы, и группу препаратов, которые его не меняют, и подумал: «В чём разница между их побочными эффектами? Изменения в утомляемости? Аппетите? Мочеиспускании?» Всё это вместе позволило ему создать очень хороший определитель. Он сказал: «Расс, я могу с 93%-й точностью определить, изменит ли препарат глюкозу».
I said, "Nick, that's great." He's a young student, you have to build his confidence. "But Nick, there's a problem. It's that every physician in the world knows all the drugs that change glucose, because it's core to our practice. So it's great, good job, but not really that interesting, definitely not publishable."
Я говорю: «Ник, это отлично». Он молодой студент, нужно придать ему уверенности в себе. «Ник, но есть проблема. Все врачи в мире знают препараты, меняющие уровень глюкозы, потому что это основа их практики. Так что здорово, отличная работа, но не настолько интересная, её точно не опубликуешь».
(Laughter)
(Смех)
He said, "I know, Russ. I thought you might say that." Nick is smart. "I thought you might say that, so I did one other experiment. I looked at people in this database who were on two drugs, and I looked for signals similar, glucose-changing signals, for people taking two drugs, where each drug alone did not change glucose, but together I saw a strong signal."
Он сказал: «Я знаю, Расс, я знал, что вы это скажете». Ник — умный парень. «Я знал, что вы так скажете, но я провел ещё один эксперимент. Я посмотрел в базе на людей, принимавших два препарата, и стал искать признаки изменения глюкозы у таких пациентов. При этом препараты по одиночке глюкозу не меняли, но вместе — я увидел, что они это делают».
And I said, "Oh! You're clever. Good idea. Show me the list." And there's a bunch of drugs, not very exciting. But what caught my eye was, on the list there were two drugs: paroxetine, or Paxil, an antidepressant; and pravastatin, or Pravachol, a cholesterol medication.
Я сказал: «Молодец, отличная идея. Покажи-ка мне список». И там куча лекарств, не очень интересно. Но моё внимание привлекло то, что в списке были два препарата: пароксетин, или «Паксил», — антидепрессант, и правастатин, или «Правакол», — препарат от холестерина.
And I said, "Huh. There are millions of Americans on those two drugs." In fact, we learned later, 15 million Americans on paroxetine at the time, 15 million on pravastatin, and a million, we estimated, on both. So that's a million people who might be having some problems with their glucose if this machine-learning mumbo jumbo that he did in the FDA database actually holds up. But I said, "It's still not publishable, because I love what you did with the mumbo jumbo, with the machine learning, but it's not really standard-of-proof evidence that we have." So we have to do something else. Let's go into the Stanford electronic medical record. We have a copy of it that's OK for research, we removed identifying information. And I said, "Let's see if people on these two drugs have problems with their glucose."
И я сказал: «Хм. Миллионы американцев принимают их одновременно». Позже мы выяснили, что 15 млн американцев принимают пароксетин, 15 млн — правастатин и миллион, как мы посчитали, — оба препарата одновременно. И это миллион человек, у которых могут быть проблемы с глюкозой, если это шаманство, что он проделал с базой данных FDA, реально работает. Но я сказал: «Это всё ещё не публикуемо, мне очень нравится, что ты там наколдовал с машинным обучением, но это не доказательство того, что мы правы. Так что нам нужно что-нибудь ещё. Давай посмотрим в электронные медицинские записи Стэнфорда, у нас есть копия для исследований — мы убрали всю идентификационную информацию. И я сказал: «Посмотрим, есть ли проблемы с уровнем глюкозы у людей, принимающих оба препарата».
Now there are thousands and thousands of people in the Stanford medical records that take paroxetine and pravastatin. But we needed special patients. We needed patients who were on one of them and had a glucose measurement, then got the second one and had another glucose measurement, all within a reasonable period of time -- something like two months. And when we did that, we found 10 patients. However, eight out of the 10 had a bump in their glucose when they got the second P -- we call this P and P -- when they got the second P. Either one could be first, the second one comes up, glucose went up 20 milligrams per deciliter. Just as a reminder, you walk around normally, if you're not diabetic, with a glucose of around 90. And if it gets up to 120, 125, your doctor begins to think about a potential diagnosis of diabetes. So a 20 bump -- pretty significant.
Итак, тысячи и тысячи людей принимают пароксетин и правастатин, согласно записям Стэнфорда. Но нам были нужны особые пациенты: те, которые принимали один из препаратов и измеряли уровень глюкозы, а затем начали принимать второй и снова измерили уровень глюкозы, причём в определённый промежуток времени — скажем, два месяца. И когда мы это сделали, мы нашли 10 пациентов. Однако у восьми из этой десятки был скачок глюкозы, когда они получили второй «П» — мы называем их «П» — когда они получили второй «П». Любой из них может быть первым, они начинают принимать второй — глюкоза поднимается на 20 мг на децилитр. Хочу напомнить, что в обычной жизни, если вы не диабетик, ваш уровень глюкозы около 90. И если она поднимается до 120–125, ваш врач может начать думать, что у вас диабет. Так что скачок на 20 пунктов довольно значителен.
I said, "Nick, this is very cool. But, I'm sorry, we still don't have a paper, because this is 10 patients and -- give me a break -- it's not enough patients."
Я сказал: «Ник, это очень круто. Но, к сожалению, это всё ещё не тянет на публикацию, потому что 10 пациентов, как ни крути, этого не достаточно».
So we said, what can we do? And we said, let's call our friends at Harvard and Vanderbilt, who also -- Harvard in Boston, Vanderbilt in Nashville, who also have electronic medical records similar to ours. Let's see if they can find similar patients with the one P, the other P, the glucose measurements in that range that we need.
И мы подумали — что мы можем сделать? Позвоним-ка нашим друзьям из Гарварда и Вандербильта, у которых — Гарвард в Бостоне, Вандербильт в Нашвилле — у которых есть такие же истории болезни, как у нас. Посмотрим, смогут ли они найти похожих пациентов с одним «П», с другим «П», измерениями глюкозы в диапазоне, который нам нужен.
God bless them, Vanderbilt in one week found 40 such patients, same trend. Harvard found 100 patients, same trend. So at the end, we had 150 patients from three diverse medical centers that were telling us that patients getting these two drugs were having their glucose bump somewhat significantly.
Слава богу, в Университете Вандербильта за неделю нашли 40 таких пациентов, динамика та же. В Гарварде нашли 100 пациентов, динамика та же. В результате у нас было 150 пациентов из трёх разных медицинских центров, и всё говорило о том, что у принимающих два этих препарата были значительные скачки уровня глюкозы.
More interestingly, we had left out diabetics, because diabetics already have messed up glucose. When we looked at the glucose of diabetics, it was going up 60 milligrams per deciliter, not just 20. This was a big deal, and we said, "We've got to publish this." We submitted the paper. It was all data evidence, data from the FDA, data from Stanford, data from Vanderbilt, data from Harvard. We had not done a single real experiment.
Что интересно, мы не включили туда диабетиков, потому что у диабетиков и так не всё в порядке с глюкозой. Когда мы посмотрели на эти показатели у диабетиков, они поднимались на целых 60 мг на децилитр, а не на 20. Это было серьёзно, и мы подумали, что надо это опубликовать. Мы отправили работу. Всё было основано только на данных — данных из FDA, данных из Стэнфорда, Вандербильта, Гарварда. Мы не провели ни одного эксперимента.
But we were nervous. So Nick, while the paper was in review, went to the lab. We found somebody who knew about lab stuff. I don't do that. I take care of patients, but I don't do pipettes. They taught us how to feed mice drugs. We took mice and we gave them one P, paroxetine. We gave some other mice pravastatin. And we gave a third group of mice both of them. And lo and behold, glucose went up 20 to 60 milligrams per deciliter in the mice.
И мы нервничали. И Ник, когда нашу работу рассматривали, пошёл в лабораторию. Мы нашли кого-то, кто этим занимается. Я об этом ничего не знаю. Я занимаюсь пациентами, а не пипетками. Они научили нас, как давать препараты мышам. Мы взяли мышей и дали им один «П» — пароксетин. А другим дали правастатин. А третьей группе дали оба. И кто бы мог подумать, глюкоза поднялась от 20 до 60 мг на децилитр у этих мышей.
So the paper was accepted based on the informatics evidence alone, but we added a little note at the end, saying, oh by the way, if you give these to mice, it goes up.
Работа, основанная только на данных, была принята, но в конце мы добавили: «Кстати, если дать препараты мышам, глюкоза поднимается».
That was great, and the story could have ended there. But I still have six and a half minutes.
Это было здорово, и всё на этом могло закончиться. Но у меня ещё шесть с половиной минут.
(Laughter)
(Смех)
So we were sitting around thinking about all of this, and I don't remember who thought of it, but somebody said, "I wonder if patients who are taking these two drugs are noticing side effects of hyperglycemia. They could and they should. How would we ever determine that?"
И мы посидели, подумали обо всём об этом, и я уже не помню, кто это придумал, но кто-то сказал: «Интересно, а кто-то из этих пациентов, которые принимали оба препарата, заметил побочный эффект гипергликемии? Они могли, и они должны были. Как бы мы могли это определить?»
We said, well, what do you do? You're taking a medication, one new medication or two, and you get a funny feeling. What do you do? You go to Google and type in the two drugs you're taking or the one drug you're taking, and you type in "side effects." What are you experiencing? So we said OK, let's ask Google if they will share their search logs with us, so that we can look at the search logs and see if patients are doing these kinds of searches. Google, I am sorry to say, denied our request. So I was bummed. I was at a dinner with a colleague who works at Microsoft Research and I said, "We wanted to do this study, Google said no, it's kind of a bummer." He said, "Well, we have the Bing searches."
Что люди делают в таких случаях? Вы принимаете лекарство — одно новое или два — и испытываете странные ощущения. Что вы будете делать? Вы открываете Google, вбиваете оба препарата, или один, который вы принимаете, и потом «побочные эффекты». Что вы ощущаете? И мы думаем: ладно, давайте попросим Google поделиться с нами данными запросов, чтобы мы могли посмотреть, задавали ли пациенты такие вопросы. В Google, к сожалению, отклонили наш запрос. Я был очень расстроен. Я ужинал с коллегой, который работает в Microsoft Research, и сказал ему: «Мы хотели провести исследование, в Google отказали — облом». Он сказал: «Ну, у нас есть данные Bing».
(Laughter)
(Смех)
Yeah. That's great. Now I felt like I was --
Ну да. Супер. Я почувствовал, будто...
(Laughter)
(Смех)
I felt like I was talking to Nick again. He works for one of the largest companies in the world, and I'm already trying to make him feel better. But he said, "No, Russ -- you might not understand. We not only have Bing searches, but if you use Internet Explorer to do searches at Google, Yahoo, Bing, any ... Then, for 18 months, we keep that data for research purposes only." I said, "Now you're talking!" This was Eric Horvitz, my friend at Microsoft.
Будто я снова разговаривал с Ником. Он работает на одну из самых больших компаний в мире, а я уже пытаюсь его подбодрить. Но потом он говорит: «Нет, Расс, ты, наверное, не понял. У нас есть не только запросы в Bing, но и запросы в Google, Yahoo, Bing — отовсюду — сделанные из Internet Explorer. Затем мы храним эту информацию 18 месяцев только для исследований». И я говорю: «Вот это другое дело!» Это был Эрик Хорвиц, мой друг в Microsoft.
So we did a study where we defined 50 words that a regular person might type in if they're having hyperglycemia, like "fatigue," "loss of appetite," "urinating a lot," "peeing a lot" -- forgive me, but that's one of the things you might type in. So we had 50 phrases that we called the "diabetes words." And we did first a baseline. And it turns out that about .5 to one percent of all searches on the Internet involve one of those words. So that's our baseline rate. If people type in "paroxetine" or "Paxil" -- those are synonyms -- and one of those words, the rate goes up to about two percent of diabetes-type words, if you already know that there's that "paroxetine" word. If it's "pravastatin," the rate goes up to about three percent from the baseline. If both "paroxetine" and "pravastatin" are present in the query, it goes up to 10 percent, a huge three- to four-fold increase in those searches with the two drugs that we were interested in, and diabetes-type words or hyperglycemia-type words.
И мы провели исследование, где определили 50 слов, которые обычный человек может набрать, если у него гипергликемия, например «усталость», «потеря аппетита», «много хожу в туалет», «много писаю» — прошу прощения, это одна из вещей, которую могут искать. И у нас было 50 фраз, мы их назвали «диабетическими словами». И сначала мы посмотрели исходные данные. Выяснилось, что от 0,5 до 1% всех запросов в интернете включают одно из этих слов. Это нашa точка отсчёта. Если люди ищут «пароксетин» или «Паксил» — это синонимы — и одно из этих слов, частота вырастает до примерно 2% «диабетических слов», если вы уже знаете, что там есть слово «пароксетин». Если это «правастатин», частота вырастает примерно до 3% от исходного уровня. Если и «пароксетин», и «правастатин» представлены в запросе, она поднимается до 10% — огромное увеличение в три-четыре раза в запросах с интересующими нас препаратами и «диабетическими» или «гипергликемическими» словами.
We published this, and it got some attention. The reason it deserves attention is that patients are telling us their side effects indirectly through their searches. We brought this to the attention of the FDA. They were interested. They have set up social media surveillance programs to collaborate with Microsoft, which had a nice infrastructure for doing this, and others, to look at Twitter feeds, to look at Facebook feeds, to look at search logs, to try to see early signs that drugs, either individually or together, are causing problems.
Мы это опубликовали, и это привлекло внимание. Причина, по которой это заслуживает внимания, в том, что пациенты рассказывают нам о своих побочных эффектах не напрямую, а через поиск. Мы отослали это в FDA. Они заинтересовались. Они установили наблюдение за социальными сетями, чтобы сотрудничать с Microsoft, с их техническими возможностями для этой задачи, а также за лентой в Twitter, в Facebook, за статистикой поисковых запросов, чтобы выявить ранние признаки того, что препараты, раздельно или вместе, вызывают проблемы.
What do I take from this? Why tell this story? Well, first of all, we have now the promise of big data and medium-sized data to help us understand drug interactions and really, fundamentally, drug actions. How do drugs work? This will create and has created a new ecosystem for understanding how drugs work and to optimize their use. Nick went on; he's a professor at Columbia now. He did this in his PhD for hundreds of pairs of drugs. He found several very important interactions, and so we replicated this and we showed that this is a way that really works for finding drug-drug interactions.
И что же я понял? Зачем я это рассказываю? Прежде всего, теперь данные могут помочь обеспечить лучшее понимание взаимодействия лекарственных препаратов и, по сути, их действие. Как действуют лекарства? Это создаст и уже создало новую экосистему для понимания того, как работают препараты и как оптимизировать их использование. Ник не остановился — он теперь профессор Колумбийского университета. Он проделал то же самое в своей докторской с сотнями пар лекарств. Он нашёл несколько очень важных взаимодействий, так что мы воспроизвели эксперимент и показали, что это на самом деле работает для поиска взаимодействия препаратов.
However, there's a couple of things. We don't just use pairs of drugs at a time. As I said before, there are patients on three, five, seven, nine drugs. Have they been studied with respect to their nine-way interaction? Yes, we can do pair-wise, A and B, A and C, A and D, but what about A, B, C, D, E, F, G all together, being taken by the same patient, perhaps interacting with each other in ways that either makes them more effective or less effective or causes side effects that are unexpected? We really have no idea. It's a blue sky, open field for us to use data to try to understand the interaction of drugs.
Однако есть ещё пара моментов. Мы не просто используем лекарства парами. Как я уже сказал, есть пациенты, принимающие три, пять, семь, девять. Изучил ли кто-то их девятистороннее взаимодействие? Да, мы можем рассматривать их парами — А и В, А и С, А и D, но как насчёт A, B, C, D, E, F, G — всех вместе, принимаемых одним пациентом? Возможно, они взаимодействуют, снижая или увеличивая эффективность друг друга или вызывая неожиданные побочные эффекты? Мы действительно не знаем. Это непаханое поле работы, где мы можем использовать наши данные, чтобы попытаться понять эти взаимодействия.
Two more lessons: I want you to think about the power that we were able to generate with the data from people who had volunteered their adverse reactions through their pharmacists, through themselves, through their doctors, the people who allowed the databases at Stanford, Harvard, Vanderbilt, to be used for research. People are worried about data. They're worried about their privacy and security -- they should be. We need secure systems. But we can't have a system that closes that data off, because it is too rich of a source of inspiration, innovation and discovery for new things in medicine.
Ещё два урока. Я хочу, чтобы вы подумали, какие у нас открылись возможности, благодаря тем людям, которые рассказали о своих жалобах фармацевтам, самим себе, своим врачам, благодаря тем, кто разрешает использовать базы данных в Стэнфорде, Гарварде, Вандербильте для исследований. Люди волнуются за свои данные. Они беспокоятся о приватности, безопасности — так и должно быть. Нам нужны защищённые системы. Но нам не нужны системы, которые ограничивают доступ к данным, являющимся богатым источником вдохновения, инноваций и новых открытий для создания нового в медицине.
And the final thing I want to say is, in this case we found two drugs and it was a little bit of a sad story. The two drugs actually caused problems. They increased glucose. They could throw somebody into diabetes who would otherwise not be in diabetes, and so you would want to use the two drugs very carefully together, perhaps not together, make different choices when you're prescribing. But there was another possibility. We could have found two drugs or three drugs that were interacting in a beneficial way. We could have found new effects of drugs that neither of them has alone, but together, instead of causing a side effect, they could be a new and novel treatment for diseases that don't have treatments or where the treatments are not effective. If we think about drug treatment today, all the major breakthroughs -- for HIV, for tuberculosis, for depression, for diabetes -- it's always a cocktail of drugs.
И в заключение хочу сказать, что в нашем случае мы нашли пару препаратов, и результы были печальными. Они действительно вызывали проблемы. Они повышали глюкозу. Они могли вызвать у кого-то диабет, который бы без них не возник, так что нужно использовать два препарата очень аккуратно, может быть, не вместе, может, прописать пациенту что-то другое. Но ведь была и другая возможность. Мы могли найти пару или тройку лекарств, которые бы обеспечили благотворное взаимодействие. Мы могли обнаружить новые эффекты препаратов, которых у них по одиночке не было бы, но вместе, вместо побочного эффекта, они могли бы предложить совершенно новую терапию болезней, считавшихся неизлечимыми или плохо поддающимися лечению. В современной лекарственной терапии все значимые открытия — для ВИЧ, туберкулёза, депрессии, диабета — это всегда коктейль из разных лекарств.
And so the upside here, and the subject for a different TED Talk on a different day, is how can we use the same data sources to find good effects of drugs in combination that will provide us new treatments, new insights into how drugs work and enable us to take care of our patients even better?
Хорошая новость в том, и это уже отдельная тема для другого выступления на TED, что мы можем использовать те же источники данных, чтобы находить положительные эффекты комбинаций лекарств, которые обеспечат нам новые схемы лечения, новый взгляд на то, как работают препараты, и возможность заботиться о пациентах ещё лучше.
Thank you very much.
Большое спасибо.
(Applause)