El reconocimiento de imagen ya era bueno, pero se está haciendo mucho mejor. Una colaboración de investigación entre Google y la Universidad de Stanford está produciendo software que describe cada vez más toda la escena retratada en una imagen, no sólo los objetos individuales.
El New York Times informa que los algoritmos escritos por el equipo para explicar lo que está sucediendo en las imágenes-en un lenguaje que en realidad tiene sentido. Así que arroja frases como «un grupo de jóvenes que juegan a un juego de disco volador» o «una persona que monta una motocicleta en un camino de tierra.»
Lo hace utilizando dos redes neuronales: uno se ocupa de reconocimiento de imágenes, la otra del procesamiento del lenguaje natural. El sistema utiliza el aprendizaje del ordenador, por lo que ha alimentado una serie de imágenes con subtítulos y se aprende poco a poco cómo las oraciones se refieren a lo que muestra la imagen. El software resultante es, según el equipo, alrededor de dos veces tan precisa como cualquier software mostrado hasta ahora.
El software no es perfecto a menudo hace pequeños errores, y otra veces coloca frases completamente equivocadas. Es evidente que hay margen de mejora, pero lo bueno es que el reconocimiento de imágenes está mejorando a buen ritmo.
Y, tal vez como era de esperar dado que Google está involucrado, la aplicación natural se encuentra en esta categoría. Tal algoritmo podría volver fácilmente las imágenes pertinentes cuando se escribe en «tres gatos que comen helados en una sala de billar».
Pingback: Bitacoras.com