Tim Smith: Big Data

Τα μεγάλα δεδομένα είναι μια άπιαστη έννοια. Είναι μεγάλες ποσότητες ψηφιακών πληροφοριών, που είναι πολύ δύσκολο να αποθηκευτούν, να μεταφερθούν ή να αναλυθούν. Τα μεγάλα δεδομένα είναι τόσο ογκώδη, που δεν είναι διαχειρίσιμα από τις σύγχρονες τεχνολογίες και απαιτούν τη δημιουργία εργαλείων και τεχνικών αποθήκευσης νέας γενιάς. Δεν πρόκειται για κάτι καινούργιο. Οι επιστήμονες στο CERN προσπαθούν να βρουν λύση για τα συνεχώς αυξανόμενα μεγάλα δεδομένα, εδώ και δεκαετίες. Πενήντα χρόνια πριν, τα δεδομένα του CERN χωρούσαν σε έναν μόνο υπολογιστή. Όχι, βέβαια, σε έναν συνηθισμένο υπολογιστή, αλλά μια κεντρική μονάδα, που έπιανε ένα ολόκληρο κτίριο. Για την ανάλυση των δεδομένων, επιστήμονες από όλον τον κόσμο ταξίδευαν στο CERN για να συνδεθούν με το πελώριο μηχάνημα. Στη δεκαετία του 1970, τα συνεχώς αυξανόμενα δεδομένα κατανεμήθηκαν σε διαφορετικές ομάδες υπολογιστών, που ξεφύτρωσαν παντού στο CERN. Κάθε ομάδα συνδεόταν με άλλες σε αποκλειστικά, τοπικά δίκτυα. Οι επιστήμονες συνεργάζονταν παρά τα όρια μεταξύ των ομάδων, επειδή ήταν απαραίτητο να έχουν πρόσβαση σε όλα. Έτσι, συνδέσαμε τα ανεξάρτητα δίκτυα μεταξύ τους δημιουργώντας το δικό μας CERNET. Στη δεκαετία του 1980, ανάλογες νησίδες δικτύων, με διαφορετικές γλώσσες επικοινωνίας, εμφανίστηκαν σε όλη την Ευρώπη και τις ΗΠΑ, κάνοντας την εξ αποστάσεως πρόσβαση εφικτή μεν, αλλά βασανιστική. Για να διευκολυνθούν οι επιστήμονες από όλον τον κόσμο να έχουν πρόσβαση στα διαρκώς αυξανόμενα μεγάλα δεδομένα του CERN χωρίς να μετακινούνται, τα δίκτυα έπρεπε να μιλούν την ίδια γλώσσα. Υιοθετήσαμε το νέο πρότυπο εργασίας των ΗΠΑ, το οποίο ακολούθησε και η υπόλοιπη Ευρώπη και βάλαμε τον κύριο σύνδεσμο στο CERN ανάμεσα στην Ευρώπη και στις ΗΠΑ το 1989, και αυτή ήταν η αρχή του πραγματικά παγκόσμιου διαδικτύου! Οι επιστήμονες, πλέον, είχαν εύκολη πρόσβαση στα τεραμπάιτ των μεγάλων δεδομένων από όλα τα μέρη του κόσμου, παρήγαγαν αποτελέσματα και έγραφαν εργασίες από τις χώρες τους. Μετά, θέλησαν να μοιραστούν τα ευρήματά τους με όλους τους συναδέλφους τους. Για πιο εύκολη ανταλλαγή δημιουργήσαμε τον ιστό στις αρχές της δεκαετίας του 1990. Δεν χρειαζόταν, πλέον, να γνωρίζουν πού ήταν αποθηκευμένες οι πληροφορίες ώστε να τις εντοπίσουν στον ιστό, και να έχουν πρόσβαση. Μια ιδέα που είχε απήχηση παγκοσμίως και άλλαξε τον τρόπο που επικοινωνούμε στην καθημερινή μας ζωή. Στη δεκαετία του 2000, η συνεχής ανάπτυξη των μεγάλων δεδομένων ξεπέρασε την ικανότητά μας να τα αναλύουμε στο CERN, παρά τα γεμάτα υπολογιστές κτίρια. Ξεκινήσαμε να διανέμουμε πεταμπάιτ δεδομένων προς τους συνεργάτες μας προκειμένου να αποθηκευτούν σε τοπικούς υπολογιστές σε εκατοντάδες διαφορετικά επιστημονικά ιδρύματα. Προκειμένου να συντονιστούν όλες οι συνδεδεμένες πηγές με τις διαφορετικές τεχνολογίες τους, αναπτύξαμε ένα υπολογιστικό δίκτυο για την απρόσκοπτη κοινή χρήση των μονάδων σε όλη την υφήλιο. Αυτό βασίστηκε στις σχέσεις εμπιστοσύνης και στην αμοιβαία ανταλλαγή. Όμως αυτό το μοντέλο δικτύου δεν μπορούσε να μεταφερθεί εκτός της κοινότητάς μας εύκολα, όπου ούτε όλοι διέθεταν δεδομένα για ανταλλαγή ούτε προσδοκούσαμε οι ιδιώτες να έδειχναν τον ίδιο βαθμό εμπιστοσύνης. Έτσι, μια εναλλακτική προσέγγιση, πιο επιχειρηματική, για κατά παραγγελία πρόσβαση, αναπτύχθηκε πρόσφατα, το υπολογιστικό νέφος, το οποίο χρησιμοποιείται από άλλες κοινότητες για την ανάλυση των δικών τους μεγάλων δεδομένων. Μπορεί να φαίνεται παράδοξο ότι ένα μέρος σαν το CERN, το οποίο εστιάζεται στη μελέτη αφάνταστα μικροσκοπικών δομικών στοιχείων της ύλης, να είναι η πηγή κάτι τόσο μεγάλου, όσο τα μεγάλα δεδομένα. Η μελέτη, όμως, των στοιχειωδών σωματιδίων και των δυνάμεων με τις οποίες αλληλεπιδρούν, απαιτεί να τα δημιουργήσουμε φευγαλέα, συγκρούοντας πρωτόνια στους επιταχυντές μας, και να καταγράψουμε τα ίχνη τους καθώς κινούνται κοντά στην ταχύτητα του φωτός. Για να δούμε αυτά τα ίχνη ο ανιχνευτής μας που έχει 150 εκ. αισθητήρες, λειτουργεί σαν τεράστια τρισδιάστατη κάμερα, τραβώντας φωτογραφίες κάθε σύγκρουσης περίπου 14 εκατομμύρια φορές ανά δευτερόλεπτο. Αυτό παράγει πολλά δεδομένα. Αν τα μεγάλα δεδομένα υπάρχουν τόσο καιρό, γιατί μαθαίνουμε γι′ αυτά τώρα; Όπως λέει και το παλιό ρητό, το σύνολο είναι μεγαλύτερο από το άθροισμα των μερών του. Και αυτό αφορά όλους τους τομείς. Το γεγονός ότι αποκτούμε περισσότερη γνώση, συνδέοντας τις συναφείς πληροφορίες και εντοπίζοντας συσχετισμούς μπορεί να εμπλουτίσει πολλούς τομείς της καθημερινής μας ζωής, είτε σε πραγματικό χρόνο, όπως στην κίνηση στους δρόμους ή τα οοικονομικά, σε βραχυπρόθεσμες εξελίξεις, όπως στην ιατρική ή τη μετεωρολογία ή για να κάνουμε προβλέψεις, όπως στις επιχειρήσεις, στο έγκλημα ή τις επιδημίες. Η συλλογή μεγάλων δεδομένων έχει κατακλύσει τα πάντα, με δίκτυα κινητής τηλεφωνίας που εκετείνονται σε όλο τον κόσμο, με κάμερες στο έδαφος και στον αέρα, με αρχεία που αποθηκεύουν τις πληροφορίες από τον ιστό και με συστήματα καταχώρησης των δραστηριοτήτων των χρηστών του διαδικτύου. Η πρόκληση είναι να εφεύρουμε νέα εργαλεία και τεχνικές για να εκμεταλλευτούμε αυτόν τον όγκο για να παίρνουμε καλύτερες αποφάσεις, για να βελτιώσουμε τις ιατρικές διαγνώσεις και να ικανοποιήσουμε τις ανάγκες της κοινωνίας του μέλλοντος με τρόπους που σήμερα δεν μπορούμε να φανταστούμε.

Big data is an elusive concept. It represents an amount of digital information, which is uncomfortable to store, transport, or analyze. Big data is so voluminous that it overwhelms the technologies of the day and challenges us to create the next generation of data storage tools and techniques. So, big data isn't new. In fact, physicists at CERN have been rangling with the challenge of their ever-expanding big data for decades. Fifty years ago, CERN's data could be stored in a single computer. OK, so it wasn't your usual computer, this was a mainframe computer that filled an entire building. To analyze the data, physicists from around the world traveled to CERN to connect to the enormous machine. In the 1970's, our ever-growing big data was distributed across different sets of computers, which mushroomed at CERN. Each set was joined together in dedicated, homegrown networks. But physicists collaborated without regard for the boundaries between sets, hence needed to access data on all of these. So, we bridged the independent networks together in our own CERNET. In the 1980's, islands of similar networks speaking different dialects sprung up all over Europe and the States, making remote access possible but torturous. To make it easy for our physicists across the world to access the ever-expanding big data stored at CERN without traveling, the networks needed to be talking with the same language. We adopted the fledgling internet working standard from the States, followed by the rest of Europe, and we established the principal link at CERN between Europe and the States in 1989, and the truly global internet took off! Physicists could easily then access the terabytes of big data remotely from around the world, generate results, and write papers in their home institutes. Then, they wanted to share their findings with all their colleagues. To make this information sharing easy, we created the web in the early 1990's. Physicists no longer needed to know where the information was stored in order to find it and access it on the web, an idea which caught on across the world and has transformed the way we communicate in our daily lives. During the early 2000's, the continued growth of our big data outstripped our capability to analyze it at CERN, despite having buildings full of computers. We had to start distributing the petabytes of data to our collaborating partners in order to employ local computing and storage at hundreds of different institutes. In order to orchestrate these interconnected resources with their diverse technologies, we developed a computing grid, enabling the seamless sharing of computing resources around the globe. This relies on trust relationships and mutual exchange. But this grid model could not be transferred out of our community so easily, where not everyone has resources to share nor could companies be expected to have the same level of trust. Instead, an alternative, more business-like approach for accessing on-demand resources has been flourishing recently, called cloud computing, which other communities are now exploiting to analyzing their big data. It might seem paradoxical for a place like CERN, a lab focused on the study of the unimaginably small building blocks of matter, to be the source of something as big as big data. But the way we study the fundamental particles, as well as the forces by which they interact, involves creating them fleetingly, colliding protons in our accelerators and capturing a trace of them as they zoom off near light speed. To see those traces, our detector, with 150 million sensors, acts like a really massive 3-D camera, taking a picture of each collision event - that's up to 14 millions times per second. That makes a lot of data. But if big data has been around for so long, why do we suddenly keep hearing about it now? Well, as the old metaphor explains, the whole is greater than the sum of its parts, and this is no longer just science that is exploiting this. The fact that we can derive more knowledge by joining related information together and spotting correlations can inform and enrich numerous aspects of everyday life, either in real time, such as traffic or financial conditions, in short-term evolutions, such as medical or meteorological, or in predictive situations, such as business, crime, or disease trends. Virtually every field is turning to gathering big data, with mobile sensor networks spanning the globe, cameras on the ground and in the air, archives storing information published on the web, and loggers capturing the activities of Internet citizens the world over. The challenge is on to invent new tools and techniques to mine these vast stores, to inform decision making, to improve medical diagnosis, and otherwise to answer needs and desires of tomorrow's society in ways that are unimagined today.

Tim Smith: Big Data

Tim Smith: Big Data

Related talks

Sajan Saini: The hidden network that makes the internet possible

Mark Liddell: How statistics can be misleading

George Zaidan: Why is ketchup so hard to pour?

Related talks

Sajan Saini: The hidden network that makes the internet possible

Mark Liddell: How statistics can be misleading

George Zaidan: Why is ketchup so hard to pour?