Entrevista a Daniel Gatica Pérez, investigador en Social Computing

#socialcomputing #machinelearning #IA

"Actualmente la Inteligencia Artificial no representa a todo el mundo"

Entrevista a Daniel Gatica Pérez

Investigador en Social Computing

Daniel Gatica Pérez trabaja para comprender el comportamiento humano en las redes sociales e investiga cómo las personas forman las primeras impresiones a partir de las imágenes. El científico e investigador mexicano es jefe del grupo de Computación Social en Idiap Research Institute y Profesor en la Escuela Politécnica Federal de Lausana (Suiza). Gatica Pérez entiende que la Inteligencia Artificial no es representativa de la diversidad y apuesta a un modelo en el que las diferencias estén reflejadas en los sistemas automáticos.

(Foto: Alban Kakulya, Edición: AR)

"Social Computing es un dominio interdisciplinario que integra teorías y modelos de computación móvil y ubicua, multimedia, aprendizaje automático y ciencias sociales para detectar, analizar e interpretar el comportamiento humano y social en la vida cotidiana, y para crear dispositivos y sistemas que soportan interacción y comunicación. Las líneas de investigación actuales incluyen la detección ubicua de la interacción cara a cara, el análisis del comportamiento del video social, el crowdsourcing y la minería de datos urbanos utilizando teléfonos inteligentes y redes sociales móviles". Idiap Research Center

¿En qué consiste la investigación que desarrollan a partir de imágenes de Airbnb?
La investigación tiene esencialmente dos partes. La primera tiene que ver con cómo la gente percibe los espacios que habitamos desde una perspectiva afectiva y social: cómo nos sentimos en un ambiente cuando estamos ahí, o cómo percibimos un ambiente cuando no estamos ahí.

Lo que hago, con un equipo de estudiantes y colaboradores, es tratar de reproducir algunas de las teorías que han existido en psicología, pero en un contexto on-line. Trabajamos sobre el significado de ver imágenes en línea en Airbnb o en medios sociales sobre lugares a los que no has ido pero te podrías imaginar estar ahí. Este contexto en línea es realmente una manera ecológicamente válida porque así es como consumimos información. Vemos lugares en Airbnb y escogemos en base a lo que vemos, sin haber estado allí. Ese tipo de información se puede colectar más o menos a gran escala y luego llevar a niveles estadísticos en diferentes dimensiones. Por ejemplo, en un restaurante podemos determinar si el ambiente es elegante, si está lleno, si está vacío, si es atractivo, si no lo es. Hay categorías que tienen que ver con hechos (si está lleno o si está vacío) y otras que son más afectivas, del ámbito de la percepción. Entonces, toda esta primera etapa tiene que ver con entender la percepción humana.

Luego, en la segunda fase, utilizamos la información de las imágenes y la percepción de las mismas, para entrenar a una máquina. Por ejemplo, imagínate que hay una imagen en Airbnb y tenemos veinte personas que han visto ese lugar y dicen en una escala del 1 al 7 qué adjetivos lo describen mejor. Luego, la información promediada junto a la estadística puede determinar que para determinado lugar, la mayoría de la gente lo ve como un 3 en cuanto a "limpio", un 4 en cuanto a "desordenado", etc. Lo que hacemos para entrenar es darle a la máquina la imagen y el 3, o el 4, y decirle que cuando vea esa imagen corresponde a un 3, cuando vea la otra, a un 4, etc. Luego, se hace un modelado basado en los datos obtenidos. Se intenta detectar qué características de las fotos incitan a los participantes a describirlas usando un adjetivo dado, para programar que las computadoras las reconocieran.

Le están enseñando a percibir a las máquinas…
Exacto. Percibir el ambiente, el espacio físico; es una dirección muy interesante del campo más largo del Machine Learning. Lo que tiene que ver con las características físicas está más o menos bien estudiado, pero para estas categorías que son más subjetivas es más complicado ya que tiene que ver mucho el bagaje cultural, la experiencia previa, pero también es el tipo del lenguaje que utilizamos para referirnos al lugar. No contamos la cantidad de sillas al entrar a un lugar pero podemos tener la percepción de que está vacío o está lleno. Se trata de contemplar esas diferencias.

¿Cuáles son los objetivos profundos de la investigación?
Con respecto a la percepción, el hacer experimentos como hacemos nosotros tiene la gran ventaja de que puedes analizar la percepción de diferentes tipos de personas en diferentes lugares a los que no tendrías acceso. Por ejemplo, hemos hecho estas investigaciones con colegas en México donde chicos de preparatoria colectan imágenes sobre su entorno urbano, cómo ven ellos la ciudad. Comenzamos con esas imágenes y luego otros chicos etiquetan las imágenes en cuanto a variables de percepción, algunas positivas y otras negativas (si está limpio, si es hermoso, si está sucio). Si tienes suficientes observaciones por persona puedes comenzar a razonar o crear un modelo de observador, y determinar que a un cierto tipo de observador, cierto tipo de lugar le parece esto o aquello.

En el contexto de problemas urbanos es interesante para identificar si hay diferencias de grupo de edad o de género respecto a la percepción del lugar. Por ejemplo, si tomas algo como la accesibilidad, es de esperar que una persona joven que no tiene limitaciones físicas no sea tan sensible a los problemas de accesibilidad mientras que alguien que tiene cierta edad o dificultad física, sí lo verá. Esto puede informar sobre cómo los ciudadanos percibimos el ambiente y nos relacionamos con él, dependiendo de qué tipo de ciudadano somos respecto a género, edad, y otras variables.

Desde el punto de vista de la automatización, hemos hecho el experimento de mostrar imágenes a gente que vive en un lugar y gente que no vive ahí, y podemos medir que hay diferencias de percepción, y después podemos entrenar a una máquina con las percepciones de alguien local y alguien extranjero. Luego empezamos a ver qué hace la máquina con toda esa información, es una forma de codificar esa diversidad que no se ve, que genera todos esos problemas de discriminación. Hay muchos ejemplos de Inteligencia Artificial que no hace diferencias, que no tiene sesgos. La idea es generar etiquetas que nos permitan entrenar máquinas que tengan esa visión de diversidad codificada.

Estudiar todo ese campo de la percepción humana te ha llevado a trabajar con psicólogos y equipos multidisciplinarios. ¿Cómo conviven los ingenieros y los especialistas que dominan el campo de la percepción humana?

Lo que nos unifica es el análisis de datos. Los colegas de psicología con los que yo trabajo tienen un enfoque empírico, están acostumbrados a recolectar datos y hacer análisis. Ellos traen el profundo conocimiento de teorías para explicar los porqués, y nosotros podemos aportar la parte del qué, qué hacemos una vez que podemos entrenar una máquina. Un poco el cómo y el qué, el más allá.

Es realmente enriquecedor encontrar el tipo de colaborador con el cual se puede hablar a través de ese lenguaje de estadística y utilizar los datos como base de las diferencias; no es tan complicado como parece.

¿Qué tanto pueden aprender las máquinas a percibir?
Ahora mismo los algoritmos de Deep Learning aplicados a imágenes pueden reconocer una gran cantidad de objetos y también de escenas. Los algoritmos estándar tienen un vocabulario de categorías de reconocimiento de mil objetos distintos. Presentas una imagen y el resultado es la probabilidad de que cualquiera de estos mil objetos esté en escena. Hay otra variante, y es que la máquina te puede decir que determinada escena corresponde a una de 300 categorías (una categoría podría ser cocina, otra salón, etc.) Lo que estamos tratando de hacer nosotros es subir el nivel de percepción a algo más de alto nivel pero sabemos que tiene que haber una conexión entre lo que hay en la escena y la percepción de la atmósfera. Estamos tratando de relevar cuáles son los objetos de una escena que contribuyen a generar determinada percepción de la atmósfera. La combinación de objetos, la confirmatoria, es compleja, no es una regla uno a uno, tiene que haber configuraciones plausibles.

¿Hacia dónde se encamina la investigación?
En el contexto específico del conocimiento de atmósferas hemos hecho el trabajo durante seis años, pero en el contexto de análisis de información en medios sociales tenemos más tiempo.
Si bien la imagen dice algo, en el contexto de una plataforma hay mucho más que la atmósfera, están los comentarios, los likes, las fotografías. Todo eso también podría contribuir a la atmósfera, y eso es algo que nos gustaría estudiar en el futuro a gran escala. La imagen es un buen anclaje, pero sabemos que hay algo más.

¿Qué desafío tiene tu área de trabajo en el futuro? ¿Cómo te imaginas el futuro con la gente conviviendo en redes con estas tecnologías?
Hay una gran oportunidad. Actualmente la Inteligencia Artificial no representa a todo el mundo. En el contexto de la percepción con la que se entrena a las máquinas tienen sesgos que vienen dependiendo de quién anota las imágenes, qué tipo de imágenes se anotan, si el objetivo de hacer esto es comercial o no, entonces como resultado de todos eso factores, las máquinas que están funcionando ahora tienen ese tipo de sesgos, que están construidos con el resultado de todas esas decisiones. Entonces se genera un proceso de tomar decisiones de diseño, de implementación, de anotación, de entrenamiento, que generan una máquina que quizás no sea representativa de todo el mundo. Yo lo que veo como oportunidad es explotar la diversidad que hay en todo el mundo.

Por ejemplo, hemos hecho un análisis de imágenes utilizando un canal de Twitter que es muy famoso en Nairobi, Kenia, que la gente lo usa como un canal de tráfico en tiempo real donde se reportan embotellamientos y otras cosas. En ese caso aplicamos una red neuronal entrenada en datos de varias compañías, y vemos lo que la máquina ve en esas imágenes. En Nairobi hay calles que no están pavimentadas, se ven carros antiguos o chocados, y la máquina lo que te dice que ve es un carro de carreras. La decisión de la máquina es race car. Si lo ves desde el punto de vista de la decisión tiene sentido, pero obviamente esos carros no son carros de carreras. Es un ejemplo de la falta de representación, en este caso, de los objetos que puedes encontrar en una gran ciudad en África. Lo que yo vería como la oportunidad es tratar de realmente conocer la diversidad que hay en el mundo y tratar de que se capture eso; por muchas razones, pero principalmente porque así es el mundo realmente, no es simplificado ni de un tipo sino que es muy variado. Y yo me querría imaginar un futuro así, donde esa diversidad y esa gran varianza esté reflejada en los sistemas automáticos.

Daniel Gatica Pérez es Jefe del Grupo de Computación Social en Idiap y Profesor en EPFL (Ecole Polytechnique Federale de Lausanne). Le interesan los métodos que integran la informática ubicua, las redes sociales, el aprendizaje automático y las ciencias sociales para comprender el comportamiento humano y social, y crear aplicaciones para el bien social.

Daniel Gatica Pérez

@dgaticaperez

Natalia Arralde es la Editora Ejecutiva de Amenaza Roboto. Ella se ha especializada en producción audiovisual (NHK-CTI Tokyo). Antes coordinó el proyecto "Periodismo en el Liceo" del MEC, el Servicio Informativo de Televisión Nacional de Uruguay y realizó servicios de producción de contenidos para cadenas internacionales como CNN y Al Jazeera. Además, ha ejercido el periodismo en canal 12, radio El Espectador y FM del Sol, El Observador y El País (suplemento Economía y Mercado). Natalia dicta clases en la Universidad de Montevideo.