What is consciousness? Can an artificial machine really think? Does the mind just consist of neurons in the brain, or is there some intangible spark at its core? For many, these have been vital considerations for the future of artificial intelligence. But British computer scientist Alan Turing decided to disregard all these questions in favor of a much simpler one: can a computer talk like a human?
¿Qué es la conciencia? ¿Puede una máquina artificial pensar de verdad? ¿Consiste la mente solo en neuronas cerebrales? ¿O hay alguna chispa intangible en su base? Para muchos, estas han sido preguntas esenciales para el futuro de la inteligencia artificial. Pero el informático británico Alan Turing decidió hacer caso omiso a todas estas preguntas a favor de una mucho más simple: ¿Puede una máquina hablar como si fuera humana?
This question led to an idea for measuring aritificial intelligence that would famously come to be known as the Turing test. In the 1950 paper, "Computing Machinery and Intelligence," Turing proposed the following game. A human judge has a text conversation with unseen players and evaluates their responses. To pass the test, a computer must be able to replace one of the players without substantially changing the results. In other words, a computer would be considered intelligent if its conversation couldn't be easily distinguished from a human's.
Esta pregunta dio lugar a una idea para medir la inteligencia artificial, que llegó a conocerse como la famosa prueba de Turing. En su ensayo de 1950: “Maquinaria computacional e inteligencia”, Turing propuso el siguiente juego. Un juez humano mantiene una conversación escrita con participantes que no ve y evalúa sus respuestas. Para pasar la prueba, una máquina debe reemplazar a uno de los participantes sin cambiar los resultados visiblemente. En otras palabras, una máquina se considera inteligente si su conversación no puede ser fácilmente distinguida de una mantenida por un ser humano.
Turing predicted that by the year 2000, machines with 100 megabytes of memory would be able to easily pass his test. But he may have jumped the gun. Even though today's computers have far more memory than that, few have succeeded, and those that have done well focused more on finding clever ways to fool judges than using overwhelming computing power. Though it was never subjected to a real test, the first program with some claim to success was called ELIZA. With only a fairly short and simple script, it managed to mislead many people by mimicking a psychologist, encouraging them to talk more and reflecting their own questions back at them. Another early script PARRY took the opposite approach by imitating a paranoid schizophrenic who kept steering the conversation back to his own preprogrammed obsessions. Their success in fooling people highlighted one weakness of the test. Humans regularly attribute intelligence to a whole range of things that are not actually intelligent. Nonetheless, annual competitions like the Loebner Prize, have made the test more formal with judges knowing ahead of time that some of their conversation partners are machines.
Turing predijo que para el año 2000 las máquinas con 100 Mb de memoria podrían pasar fácilmente su prueba. Pero pudo haberse precipitado. A pesar de que las computadoras de hoy tienen mucha más memoria pocas han pasado el test, y las que lo han logrado se centraron más en encontrar formas inteligentes para engañar a los jueces que en el uso de sus capacidades de cálculo abrumadoras. A pesar de que nunca fue sometido a una prueba real, el primer programa que hubiera podido pasar la prueba se llamaba ELIZA. Con la ayuda de un script bastante corto y sencillo, logró engañar a muchas personas haciéndoles creer que era una psicóloga que les animaba a hablar más de manera que les inducía a responder sus propias preguntas. Otro script temprano, PARRY, adoptó una estrategia diferente. Imitaba a un esquizofrénico paranoico que no paraba de desviar la conversación hacia sus obsesiones pre-programadas. Su éxito en engañar a la gente puso en evidencia una debilidad de la prueba. Los humanos asocian la inteligencia con toda una serie de cosas que, en realidad, no son inteligentes. No obstante, concursos anuales como el premio Loebner, han hecho la prueba más formal con jueces que saben de antemano si algunos de sus compañeros en la conversación son máquinas.
But while the quality has improved, many chatbot programmers have used similar strategies to ELIZA and PARRY. 1997's winner Catherine could carry on amazingly focused and intelligent conversation, but mostly if the judge wanted to talk about Bill Clinton. And the more recent winner Eugene Goostman was given the persona of a 13-year-old Ukrainian boy, so judges interpreted its nonsequiturs and awkward grammar as language and culture barriers. Meanwhile, other programs like Cleverbot have taken a different approach by statistically analyzing huge databases of real conversations to determine the best responses. Some also store memories of previous conversations in order to improve over time. But while Cleverbot's individual responses can sound incredibly human, its lack of a consistent personality and inability to deal with brand new topics are a dead giveaway.
Pero si bien la calidad ha mejorado, muchos programadores de bots conversacionales han seguido usando estrategias similares a ELIZA y PARRY. Catherine, la ganadora de 1997, podía mantener una conversación inteligente e increíblemente centrada, pero sobre todo si el jurado quería hablar de Bill Clinton. Y el último ganador, Eugene Goostman, tuvo la personalidad asignada de un niño ucraniano de 13 años de modo que los jueces interpretaron sus falacias lógicas y la gramática torpe como barreras lingüísticas y culturales. Mientras tanto, otros programas como Cleverbot han adoptado un enfoque diferente al analizar estadísticamente bases de datos enormes de conversaciones reales para determinar las mejores respuestas. Algunos también almacenaron recuerdos de conversaciones anteriores para mejorar con el tiempo. Pero si bien las respuestas individuales de Cleverbot pueden sonar increíblemente humanas, su falta de personalidad coherente e incapacidad para hacer frente a nuevos temas, lo delatan.
Who in Turing's day could have predicted that today's computers would be able to pilot spacecraft, perform delicate surgeries, and solve massive equations, but still struggle with the most basic small talk? Human language turns out to be an amazingly complex phenomenon that can't be captured by even the largest dictionary. Chatbots can be baffled by simple pauses, like "umm..." or questions with no correct answer. And a simple conversational sentence, like, "I took the juice out of the fridge and gave it to him, but forgot to check the date," requires a wealth of underlying knowledge and intuition to parse. It turns out that simulating a human conversation takes more than just increasing memory and processing power, and as we get closer to Turing's goal, we may have to deal with all those big questions about consciousness after all.
En la época de Turing, ¿quién podría haber predicho que las máquinas actuales serían capaces de pilotar naves espaciales, realizar cirugías delicadas y resolver ecuaciones gigantes, pero seguirían teniendo problemas con conversaciones básicas? El lenguaje humano resulta ser un fenómeno increíblemente complejo que no puede reflejarse ni en el diccionario más extenso. Los chatbots pueden confundirse con muletillas simples, como “pues...”, o preguntas que no tienen una respuesta correcta. Y una simple frase cotidiana, como: “Saqué el jugo del refrigerador y se lo di, pero olvidé revisar la fecha de caducidad”, requiere muchos conocimientos previos e intuición para analizarla. Resulta que para simular una conversación humana se necesita más que una memoria aumentada y potencial de procesamiento, y a medida que nos acercamos a la meta de Turing, puede que necesitemos hacer frente