Le están enseñando a percibir a las máquinas…Exacto. Percibir el ambiente, el espacio físico; es una dirección muy interesante del campo más largo del
Machine Learning. Lo que tiene que ver con las características físicas está más o menos bien estudiado, pero para estas categorías que son más subjetivas es más complicado ya que tiene que ver mucho el bagaje cultural, la experiencia previa, pero también es el tipo del lenguaje que utilizamos para referirnos al lugar. No contamos la cantidad de sillas al entrar a un lugar pero podemos tener la percepción de que está vacío o está lleno. Se trata de contemplar esas diferencias.
¿Cuáles son los objetivos profundos de la investigación? Con respecto a la percepción, el hacer experimentos como hacemos nosotros tiene la gran ventaja de que puedes analizar la percepción de diferentes tipos de personas en diferentes lugares a los que no tendrías acceso. Por ejemplo, hemos hecho estas investigaciones con colegas en México donde chicos de preparatoria colectan imágenes sobre su entorno urbano, cómo ven ellos la ciudad. Comenzamos con esas imágenes y luego otros chicos etiquetan las imágenes en cuanto a variables de percepción, algunas positivas y otras negativas (si está limpio, si es hermoso, si está sucio). Si tienes suficientes observaciones por persona puedes comenzar a razonar o crear un modelo de observador, y determinar que a un cierto tipo de observador, cierto tipo de lugar le parece esto o aquello.
En el contexto de problemas urbanos es interesante para identificar si hay diferencias de grupo de edad o de género respecto a la percepción del lugar. Por ejemplo, si tomas algo como la accesibilidad, es de esperar que una persona joven que no tiene limitaciones físicas no sea tan sensible a los problemas de accesibilidad mientras que alguien que tiene cierta edad o dificultad física, sí lo verá. Esto puede informar sobre cómo los ciudadanos percibimos el ambiente y nos relacionamos con él, dependiendo de qué tipo de ciudadano somos respecto a género, edad, y otras variables.
Desde el punto de vista de la automatización, hemos hecho el experimento de mostrar imágenes a gente que vive en un lugar y gente que no vive ahí, y podemos medir que hay diferencias de percepción, y después podemos entrenar a una máquina con las percepciones de alguien local y alguien extranjero. Luego empezamos a ver qué hace la máquina con toda esa información, es una forma de codificar esa diversidad que no se ve, que genera todos esos problemas de discriminación. Hay muchos ejemplos de Inteligencia Artificial que no hace diferencias, que no tiene sesgos. La idea es generar etiquetas que nos permitan entrenar máquinas que tengan esa visión de diversidad codificada.
Estudiar todo ese campo de la percepción humana te ha llevado a trabajar con psicólogos y equipos multidisciplinarios. ¿Cómo conviven los ingenieros y los especialistas que dominan el campo de la percepción humana?
Lo que nos unifica es el análisis de datos. Los colegas de psicología con los que yo trabajo tienen un enfoque empírico, están acostumbrados a recolectar datos y hacer análisis. Ellos traen el profundo conocimiento de teorías para explicar los porqués, y nosotros podemos aportar la parte del qué, qué hacemos una vez que podemos entrenar una máquina. Un poco el cómo y el qué, el más allá.
Es realmente enriquecedor encontrar el tipo de colaborador con el cual se puede hablar a través de ese lenguaje de estadística y utilizar los datos como base de las diferencias; no es tan complicado como parece.
¿Qué tanto pueden aprender las máquinas a percibir?
Ahora mismo los algoritmos de Deep Learning aplicados a imágenes pueden reconocer una gran cantidad de objetos y también de escenas. Los algoritmos estándar tienen un vocabulario de categorías de reconocimiento de mil objetos distintos. Presentas una imagen y el resultado es la probabilidad de que cualquiera de estos mil objetos esté en escena. Hay otra variante, y es que la máquina te puede decir que determinada escena corresponde a una de 300 categorías (una categoría podría ser cocina, otra salón, etc.) Lo que estamos tratando de hacer nosotros es subir el nivel de percepción a algo más de alto nivel pero sabemos que tiene que haber una conexión entre lo que hay en la escena y la percepción de la atmósfera. Estamos tratando de relevar cuáles son los objetos de una escena que contribuyen a generar determinada percepción de la atmósfera. La combinación de objetos, la confirmatoria, es compleja, no es una regla uno a uno, tiene que haber configuraciones plausibles.
¿Hacia dónde se encamina la investigación? En el contexto específico del conocimiento de atmósferas hemos hecho el trabajo durante seis años, pero en el contexto de análisis de información en medios sociales tenemos más tiempo.
Si bien la imagen dice algo, en el contexto de una plataforma hay mucho más que la atmósfera, están los comentarios, los
likes, las fotografías. Todo eso también podría contribuir a la atmósfera, y eso es algo que nos gustaría estudiar en el futuro a gran escala. La imagen es un buen anclaje, pero sabemos que hay algo más.
¿Qué desafío tiene tu área de trabajo en el futuro? ¿Cómo te imaginas el futuro con la gente conviviendo en redes con estas tecnologías? Hay una gran oportunidad. Actualmente la Inteligencia Artificial no representa a todo el mundo. En el contexto de la percepción con la que se entrena a las máquinas tienen sesgos que vienen dependiendo de quién anota las imágenes, qué tipo de imágenes se anotan, si el objetivo de hacer esto es comercial o no, entonces como resultado de todos eso factores, las máquinas que están funcionando ahora tienen ese tipo de sesgos, que están construidos con el resultado de todas esas decisiones. Entonces se genera un proceso de tomar decisiones de diseño, de implementación, de anotación, de entrenamiento, que generan una máquina que quizás no sea representativa de todo el mundo. Yo lo que veo como oportunidad es explotar la diversidad que hay en todo el mundo.
Por ejemplo, hemos hecho un análisis de imágenes utilizando un canal de Twitter que es muy famoso en Nairobi, Kenia, que la gente lo usa como un canal de tráfico en tiempo real donde se reportan embotellamientos y otras cosas. En ese caso aplicamos una red neuronal entrenada en datos de varias compañías, y vemos lo que la máquina ve en esas imágenes. En Nairobi hay calles que no están pavimentadas, se ven carros antiguos o chocados, y la máquina lo que te dice que ve es un carro de carreras. La decisión de la máquina es
race car. Si lo ves desde el punto de vista de la decisión tiene sentido, pero obviamente esos carros no son carros de carreras. Es un ejemplo de la falta de representación, en este caso, de los objetos que puedes encontrar en una gran ciudad en África. Lo que yo vería como la oportunidad es tratar de realmente conocer la diversidad que hay en el mundo y tratar de que se capture eso; por muchas razones, pero principalmente porque así es el mundo realmente, no es simplificado ni de un tipo sino que es muy variado. Y yo me querría imaginar un futuro así, donde esa diversidad y esa gran varianza esté reflejada en los sistemas automáticos.