Tim Smith: Big Data

Big data is an elusive concept. It represents an amount of digital information, which is uncomfortable to store, transport, or analyze. Big data is so voluminous that it overwhelms the technologies of the day and challenges us to create the next generation of data storage tools and techniques. So, big data isn't new. In fact, physicists at CERN have been rangling with the challenge of their ever-expanding big data for decades. Fifty years ago, CERN's data could be stored in a single computer. OK, so it wasn't your usual computer, this was a mainframe computer that filled an entire building. To analyze the data, physicists from around the world traveled to CERN to connect to the enormous machine. In the 1970's, our ever-growing big data was distributed across different sets of computers, which mushroomed at CERN. Each set was joined together in dedicated, homegrown networks. But physicists collaborated without regard for the boundaries between sets, hence needed to access data on all of these. So, we bridged the independent networks together in our own CERNET. In the 1980's, islands of similar networks speaking different dialects sprung up all over Europe and the States, making remote access possible but torturous. To make it easy for our physicists across the world to access the ever-expanding big data stored at CERN without traveling, the networks needed to be talking with the same language. We adopted the fledgling internet working standard from the States, followed by the rest of Europe, and we established the principal link at CERN between Europe and the States in 1989, and the truly global internet took off! Physicists could easily then access the terabytes of big data remotely from around the world, generate results, and write papers in their home institutes. Then, they wanted to share their findings with all their colleagues. To make this information sharing easy, we created the web in the early 1990's. Physicists no longer needed to know where the information was stored in order to find it and access it on the web, an idea which caught on across the world and has transformed the way we communicate in our daily lives. During the early 2000's, the continued growth of our big data outstripped our capability to analyze it at CERN, despite having buildings full of computers. We had to start distributing the petabytes of data to our collaborating partners in order to employ local computing and storage at hundreds of different institutes. In order to orchestrate these interconnected resources with their diverse technologies, we developed a computing grid, enabling the seamless sharing of computing resources around the globe. This relies on trust relationships and mutual exchange. But this grid model could not be transferred out of our community so easily, where not everyone has resources to share nor could companies be expected to have the same level of trust. Instead, an alternative, more business-like approach for accessing on-demand resources has been flourishing recently, called cloud computing, which other communities are now exploiting to analyzing their big data. It might seem paradoxical for a place like CERN, a lab focused on the study of the unimaginably small building blocks of matter, to be the source of something as big as big data. But the way we study the fundamental particles, as well as the forces by which they interact, involves creating them fleetingly, colliding protons in our accelerators and capturing a trace of them as they zoom off near light speed. To see those traces, our detector, with 150 million sensors, acts like a really massive 3-D camera, taking a picture of each collision event - that's up to 14 millions times per second. That makes a lot of data. But if big data has been around for so long, why do we suddenly keep hearing about it now? Well, as the old metaphor explains, the whole is greater than the sum of its parts, and this is no longer just science that is exploiting this. The fact that we can derive more knowledge by joining related information together and spotting correlations can inform and enrich numerous aspects of everyday life, either in real time, such as traffic or financial conditions, in short-term evolutions, such as medical or meteorological, or in predictive situations, such as business, crime, or disease trends. Virtually every field is turning to gathering big data, with mobile sensor networks spanning the globe, cameras on the ground and in the air, archives storing information published on the web, and loggers capturing the activities of Internet citizens the world over. The challenge is on to invent new tools and techniques to mine these vast stores, to inform decision making, to improve medical diagnosis, and otherwise to answer needs and desires of tomorrow's society in ways that are unimagined today.

Grande quantidade de informação é um conceito elusivo. Ele representa uma quantidade de informação digital, que é difícil de armazenar. transportar ou analisar. Grande quantidade de informação é algo tão volumoso que soterra as tecnologias atuais e nos desafia a criar a próxima geração de ferramentas e técnicas para estocagem de dados. Bem, grande quantidade de informação não é nada novo. Na verdade, físicos no CERN têm se contorcido com o desafio de sua grande quantidade de dados que sempre se expande por décadas. Cinquenta anos atrás, os dados do CERN podiam ser armazenados em um único computador. Ok, não era um computador comum, esse era um 'mainframe' que enchia um edifício inteiro. Para analisar os dados, físícos de todo o mundo viajavam ao CERN para conectar-se à enorme máquina. Na década de 1970, nossa grande quantidade de dados foi distribuída entre diferentes conjuntos de computadores que cresceram feito cogumelos no CERN. Cada conjunto foi interligado a redes internas exclusivas. Mas os físicos trabalhavam sem levar em consideração os limites entre os conjuntos, por isso precisavam acessar dados em todos eles. Portanto, conectamos as redes independentes em nossa própria CERNET. Na década de 1980, ilhas de redes similares, falando diferentes dialetos, surgiram por toda a Europa e Estados Unidos, tornando o acesso remoto possível, mas torturante. Para tornar mais fácil para nossos físicos do mundo todo acessar o conjunto de dados que sempre se expande, armazenado no CERN sem viajar, as redes precisavam falar a mesma língua. Adotamos o padrão de trabalho da incipiente internet dos Estados Unidos, seguida pelo resto da Europa, e estabelecemos o 'link' principal, no CERN, entre Europa e os Estados Unidos em 1989, e surgiu a verdadeira internet global! Os físicos podiam acessar facilmente os terabytes do conjunto de dados remotamente, pelo mundo todo, gerar resultados e escrever estudos em suas instituições locais. Daí, eles queriam compartilhar suas descobertas com todos seus colegas. Para tornar fácil o compartilhamento dessa informação, criamos a 'web' no início da década de 1990. Os físicos não precisavam mais saber onde a informação estava armazenada para encontrá-la e acessá-la na web, uma ideia que pegou no mundo todo e transformou a forma como nos comunicamos no cotidiano. No início da década de 2000, o contínuo crescimento de nosso conjunto de dados ultrapassou nossa capacidade de analisá-los no CERN, apesar de termos edifícios cheios de computadores. Tivemos que começar a distribuir os petabytes de dados a nossos colaboradores associados, para que utilizassem computadores e armazenamento locais em centenas de instituições diferentes. Para orquestrar esses recursos interconectados com suas diferentes tecnologias, desenvolvemos uma rede, que permite o compartilhamento contínuo de recursos computacionais no mundo todo. Isso se assenta em relações de confiança e troca mútua. Mas essa rede modelo não pode ser transferida para fora de nossa comunidade tão facilmente, onde nem todos têm recursos para compartilhar nem se pode esperar que empresas tenham o mesmo nível de confiança. De outro lado, uma alternativa, uma abordagem mais empresarial para acessar recursos sob demanda, desenvolveu-se recentemente, chamada computação na nuvem, que outras comunidades estão explorando agora para analisar sua grande quantidade de informação. Pode parecer paradoxal para um lugar como o CERN, um laboratório focado no estudo dos imensamente pequenos blocos construtores da matéria, ser a fonte de algo tão grande quanto o imenso conjunto de dados. Mas a forma pela qual estudamos as partículas fundamentais, assim como as forças com as quais elas interagem, envolve criá-las transitoriamente, colidindo prótons em nossos aceleradores e capturando um indício deles enquanto aceleram até próximo à velocidade da luz. Para ver esses indícios, nosso detector, com 150 milhões de sensores, atua como uma verdadeira câmera 3-D, fotografando cada colisão. Isso é mais que 14 milhões de vezes por segundo. Isso produz muita informação. Mas, se há tanto tempo essa grande quantidade de dados está por aí, por que de repente estamos ouvindo sobre isso agora? Bem, como explica a velha metáfora, o todo é maior que a soma de suas partes, e não é mais apenas a ciência que está explorando isso. O fato de que podemos obter mais conhecimento reunindo informações relacionadas e observando correlações pode informar e enriquecer numerosos aspectos da vida cotidiana, seja em tempo real, como tráfego ou condições financeiras, seja em evoluções de curto prazo, como diagnósticos médicos e previsões meteorológicas, seja em situações previsíveis, como negócios, crime ou propensão a doenças. Virtualmente, cada campo está se voltando para o agrupamento de grande quantidade de informação, com redes de sensores móveis abrangendo o globo, câmeras na terra e no ar, arquivos armazenando informações publicadas na web, e registradores capturando as atividades de cidadãos da Internet no mundo todo. O desafio é inventar novas ferramentas e técnicas que garimpem esses vastos armazéns, para embasar a tomada de decisão, melhorar diagnóstico médico e atender necessidades e desejos da sociedade de amanhã de maneiras que são inimagináveis hoje.

Tim Smith: Big Data

Tim Smith: Big Data

Related talks

Sajan Saini: The hidden network that makes the internet possible

Mark Liddell: How statistics can be misleading

George Zaidan: Why is ketchup so hard to pour?

Related talks

Sajan Saini: The hidden network that makes the internet possible

Mark Liddell: How statistics can be misleading

George Zaidan: Why is ketchup so hard to pour?