No es ningún secreto que Google se ha vuelto más activo en la investigación en los últimos años, especialmente desde que se reorganizó significativamente en 2015. El 22 de septiembre de 2016 anunció el lanzamiento de un software de código abierto que puede detectar los objetos y el entorno de una imagen para generar automáticamente un pie de foto que la describa.Por supuesto, no tiene el mismo nivel de creatividad que los seres humanos a la hora de crear la prosa dentro de los pies de foto, pero el codificador de imágenes también conocido como Inception V3 debería haber captado la atención por razones que trascienden el motivo superficial de «mira los pies de foto que puede hacer». Un software como éste, de hecho, puede ser un peldaño hacia algo mayor en el camino hacia una inteligencia artificial más avanzada.
Contenido
Los ojos pueden ver, pero la inteligencia «percibe»
La vista artificial está con nosotros desde hace más de un siglo. Cualquier cosa con una cámara puede ver. Es algo muy básico. Pero incluso un ciego puede superar la comprensión de la cámara de lo que está mirando. Hasta hace muy poco, los ordenadores no eran capaces de nombrar con facilidad y precisión los objetos que se encontraban en las fotografías sin parámetros muy específicos. Decir realmente que un objeto creado por el hombre tiene «visión» significaría que al menos tiene una capacidad concreta para especificar lo que está mirando, en lugar de limitarse a mirarlo sin reunir ningún contexto. De este modo, el aparato podría reaccionar potencialmente a su entorno basándose en la vista, al igual que hacemos nosotros. La percepción es una necesidad absoluta. Sin ella, todos los sentidos que tenemos son inútiles.
Percepción a través del subtitulado automático de imágenes
Aunque generalmente creemos que cada imagen vale más que mil palabras, Inception V3 no comparte necesariamente esa opinión. El software de subtitulación automática de imágenes tiene muy pocas cosas que decir sobre lo que ve, pero al menos tiene una comprensión básica y concreta de lo que contiene el fotograma que se le presenta.
Con esta información rudimentaria hemos dado un paso hacia la capacidad del software para comprender los estímulos visuales. Dar a un robot este tipo de poder le permitiría reaccionar a tales estímulos, llevando su inteligencia al nivel de la mayoría de los animales acuáticos básicos. Puede que no parezca gran cosa, pero si echa un vistazo a lo que hacen los robots ahora mismo (cuando se les pone a prueba fuera de sus parámetros altamente restrictivos), descubrirá que esto supondría un gran salto en inteligencia en comparación con la forma ameboide de percibir su propio entorno.
Lo que esto significa para la IA (y por qué está lejos de ser perfecta)
El hecho de que ahora tengamos un software que (con un 93% de precisión) puede subtitular imágenes significa que hemos superado en cierto modo el obstáculo de conseguir que los ordenadores den sentido a su entorno. Por supuesto, eso no significa que estemos cerca de haber terminado en ese departamento. También cabe mencionar que el Inception V3 fue entrenado por humanos a lo largo del tiempo y utiliza la información que «aprendió» para descifrar otras imágenes. Para tener una verdadera comprensión del entorno, hay que ser capaz de alcanzar un nivel de percepción más abstracto. ¿Está enfadada la persona de la imagen? ¿Se están peleando dos personas? ¿Por qué llora la mujer del banco?
Las preguntas anteriores representan el tipo de cosas que nos preguntamos cuando nos encontramos con otros seres humanos. Es el tipo de indagación abstracta que requiere que extrapolemos más información de lo que puede hacer un subtítulo de imagen. No olvidemos esa guinda del pastel que nos gusta llamar reacción emocional (o «irracional») a lo que vemos. Es la razón por la que consideramos bellas las flores, repugnantes las alcantarillas y sabrosas las patatas fritas. Es algo que todavía nos preguntamos si alguna vez lograremos a nivel de las máquinas sin codificarlas realmente. La verdad es que este tipo de fenómeno «humano» es probablemente imposible sin una programación restrictiva. Por supuesto, eso no significa que no dejemos de intentarlo. Al fin y al cabo, somos humanos.
¿Cree que nuestros señores robots aprenderán alguna vez a apreciar la complejidad de un pétalo de rosa bajo el microscopio? ¡Díganoslo en un comentario!