Predicción y Sesgo en la Red

#búsquedaSemántica #DATA #IoT

Entrevista a Ricardo Baeza-Yates

Pionero en técnicas de recuperación de datos digitales a gran escala y en tecnologías de búsqueda

Predecir la intención del usuario es la meta de la búsqueda semántica. Esta tecnología va más allá de la habitual búsqueda de palabras: pretende responder concretamente -y en tiempo real- lo que las personas necesitan. Será clave para el Internet de las cosas y los asistentes personales.

En este campo se ha especializado el chileno Ricardo Baeza-Yates, científico de datos y computación, pionero en las técnicas de recuperación de datos digitales a gran escala así como en tecnologías de búsqueda. Baeza es actualmente director de Tecnología (CTO) de NTENT, es autor de numerosos libros sobre computación y durante 10 años fue vicepresidente y científico jefe de Investigación en Tecnología de Búsquedas de Yahoo. Como investigador, ha profundizado en la dimensión ética de los algoritmos y ha estudiado los sesgos geográficos, lingüísticos y de género que pueden afectar la calidad de la información.

Este científico es optimista respecto a los beneficios de la tecnología para la humanidad, y entiende que el problema es lograr "algo que todos quieran para el bien de todos y no para el poder de algunos". Lamenta la escasez de recursos humanos especializados en América Latina, que son obligados a emigrar y entiende que son necesarias políticas para retener a los científicos y de ese modo achicar la brecha con los países desarrollados.

Es la técnica dentro de la Inteligencia Artificial que permite que las máquinas aprendan automáticamente. Aprender, en este caso, significa identificar patrones complejos entre un enorme volumen de datos, lo más parecido posible a como lo haría una persona.

Internet de las Cosas o Internet of things es un concepto que refiere a la conexión digital de los objetos cotidianos con Internet. Es una rama de la computación que busca desarrollar dispositivos que son "inteligentes", de cierto modo. Un ejemplo son las lamparitas que están conectadas a Internet y que puedes controlar con el celular.

¿Qué es la búsqueda semántica inteligente?

La búsqueda semántica pretende responder concretamente lo que estás buscando. Va más allá de la búsqueda léxica habitual que usamos todo el tiempo y cuya respuesta es una lista de páginas webs que contienen palabras de la búsqueda. La tecnología semántica no te da un listado sino que responde concretamente a lo que estás buscando. Por ejemplo, si estás buscando la capital de Burkina Faso y tú pones eso en un buscador en la web, te va a dar una página en donde van a aparecer esas tres palabras: capital, Burkina y Faso, pero eso no te asegura que aparezca la capital. Lo más probable es que sí aparezca, pero podría ser alguien haciendo la misma pregunta. Entonces la diferencia con la búsqueda semántica es que la máquina entienda que cuando estás preguntando por la capital de Burkina Faso es que estás consultando por un país, y que un país tiene capital y entonces lo que va a buscar es la respuesta a eso en concreto. Esa es la diferencia entre una búsqueda léxica, que es la típica, y una búsqueda semántica. Nosotros lo que estamos haciendo en este momento es eso: tratando de adivinar la intención de lo que tú quieres buscar. Y en vez de darte diez resultados, que es lo normal, darte la respuesta.

¿Se le enseña a la máquina a comprender el significado de una consulta?

A predecir. Es un aprendizaje automático, o Machine Learning. Predecir lo que tú estás tratando de hacer. Por ejemplo, podemos decir que parece que una persona está buscando restaurantes cerca de su zona. Entonces, en ese caso uno tiene que tener un mapa con una lista de restaurantes que están cerca en vez de darle una lista de páginas por restaurante.

¿Qué competencias tiene el equipo que trabaja contigo? ¿Hay varias disciplinas involucradas?

Hay tres tipos de expertise, lo principal serían los ingenieros que son expertos en manejar grandes cantidades de datos y en temas de tecnologías de búsqueda. Luego, están los científicos de datos, que hacen análisis de datos, tienen que entender qué quieren las personas, hacer modelos de Machine Learning. Y el tercero, que son los menos, son los que tienen experiencia en lingüística y en el procesamiento del lenguaje natural. La mayoría de la gente que trabaja conmigo tiene doctorados; es de muy alto nivel.

¿Cuáles podrían ser las aplicaciones futuras de la búsqueda semántica?

Esta tecnología tiene muchas aplicaciones en el sentido de la búsqueda hiper local. Estás en un lugar y puedes buscar lo que quieras que esté cerca tuyo. Y entienden muy bien todo lo que está cerca de ti, todos los negocios, todos los cines. Incluso cualquier interacción donde dos personas estén conversando en un chat se podría tratar de interpretar (y eso lo están haciendo ya algunos servicios de chat) lo que las personas están haciendo, si necesitan que se les busque un auto, un vuelo, etc. Incluso se podría intervenir en cosas como lo que está pasando en el mundo de los bots que hablan entre ellos. Ahí hay una paradoja que como no se ponen de acuerdo en un idioma interno, los bots tal vez se hablen en lenguaje natural entre ellos. Un bot de una compañía con un bot de otra compañía podrían estar comunicándose a nivel de la máquina, pero hoy no hay acuerdo para utilizar un lenguaje estándar para hacer eso y tal vez en el futuro eso ocurra. Sería muy interesante; podrían comunicarse sin que nosotros supiéramos. Entre más entendemos lo que la persona quiere hacer, más podemos buscar cosas que le puedan ayudar. El objetivo final es ayudar a la gente a terminar la tarea más rápido.

¿Cómo se conecta la búsqueda semántica con el Internet de las cosas?

El Internet de las cosas va a proveer señales para que uno pueda entender lo que la persona está tratando de hacer. Muchas más señales, entonces va a ser mucho más fácil. Si vas a tener sensores en toda tu casa, va a ser muy fácil predecir que estás haciendo, y si te puedo ayudar, te ayudo. Y muchas de esas formas de ayudarte, será buscando. Suponte que te das cuenta que tienes un problema en tu casa y tratas de resolverlo y la casa empieza a ser tu ayudante inteligente. Te pregunta si puede ayudarte, si quieres que te busque alguien que te ayude con ese problema, empieza a hacerte preguntas inteligentes. Es alguien que está escuchándote todo el tiempo y que mantiene la privacidad. Esa conversación no debería guardarse en ninguna parte.

¿La búsqueda semántica tiene complejidades dependiendo del idioma? ¿Se avanza de manera generalizada o cada idioma tiene sus especificidades?

La parte genérica, la base de conocimiento, el knowledge base, es en realidad independiente del lenguaje. Pero los documentos, así como las consultas, dependen del idioma y hay que interpretarlos y están en determinados idiomas; entonces sí se requiere un procesamiento del lenguaje natural para cada idioma. Hay idiomas donde es muy fácil hacer procesamiento del lenguaje natural. Por ejemplo el castellano, que es de los más fáciles porque es fonético y la estructura gramatical es bastante uniforme; el inglés es un poquito más difícil. Hay otros idiomas que son mucho más difíciles, como el turco o el finlandés, y después te vas a idiomas orientales que no usan letras sino símbolos y hay problemas de segmentación de palabras porque no hay espacios. En mandarín se dan otros niveles de complicación. En definitiva, sí, la parte del procesamiento depende del idioma

Hay muchos lenguajes en los que actualmente existen estas herramientas, incluso de código abierto. Nosotros en este momento estamos trabajando en inglés, ruso y turco, que son las lenguas de los clientes que tenemos actualmente.

Te interesa y has investigado en particular el sesgo dentro de toda esa información sobre la cual trabajas. ¿Cómo se trasladan los sesgos a los algoritmos?

El sesgo está en todas partes y puede ser positivo. Lo que creo es que hay que ser consciente de la cantidad de sesgo que hay y que en algunos casos puede ser perjudicial y en otros casos no. Lo que sí es cierto que aun cuando el sesgo es perjudicial, las máquinas pueden tomar mejores decisiones que las personas porque, por lo menos, son coherentes para tomar decisiones.

Nosotros estamos trabajando en temas de búsqueda de trabajo. Si tú buscas en LinkedIn seguro que si buscas por médico te salen mayoría de hombres y si buscas por enfermero, te salen mayoría mujeres. La pregunta es: ¿podemos modificar eso de modo que no haya una diferencia de género?

¿La respuesta para achicar la brecha del sesgo también está en los datos?

Los datos pueden ayudar. Una forma es quitarle el sesgo a los datos. Por ejemplo, darle más peso a las mujeres si son una minoría en los datos, o darle más peso a ciertas razas. Eso se puede hacer con modelos matemáticos, darle más peso a distintas áreas de los datos para balancearlos. Pero para hacer eso hay que tener mucho cuidado de saber el valor de referencia correcto. Por ejemplo, si yo voy a una charla y hay 20% mujeres yo podría pensar que está sesgado porque debería haber 50% de mujeres. Pero tal vez es el dato correcto. Por ejemplo, si en el área de la oferta de una cierta profesión que solamente el 10% son mujeres, entonces es al revés, hay muchas más mujeres de las que debería haber. Es muy importante tener la medida de referencia, y eso a veces uno no lo sabe. Hay que obtener la referencia de los datos y, segundo, hacerse la pregunta si la referencia es correcta o no. Para eso hay que usar otros algoritmos externos, que no solo nos dan los datos, hay que hacer otros análisis.

Ahí entra en juego la ética en los desarrolladores de algoritmos. ¿Cuán importante es para el desarrollador tener presente esa dimensión? ¿Está extendido o se acota a una preocupación de algunos?

El tema de la ética es un tema complicado, cuando alguien hace un modelo de aprendizaje automático y se quiere determinar el responsable de un tema, alguien que se haga cargo, es un tema complejo. Uno puede decir que el que proveyó los datos es el que se hace responsable. También puede ser que sea el que etiquetó los datos, y muchas veces eso lo hace mucha gente. Puede ser el que programó el sistema, o el que generó el modelo. Hay mucha gente involucrada. Por ejemplo en el caso del auto de Uber que mató a una persona hay hasta quien podría responsabilizar a la persona que estaba dentro del auto que no hizo nada para detenerlo. Hay una culpabilidad que es mucho más compartida que antes y eso es un problema. El futuro va a ser un poco más complicado porque puede ser que los robots aprendan solos y ahí uno podría decir el que programó el algoritmo de aprendizaje del robot es el más responsable; y no es claro eso. Lo que podría ser un futuro malo para el algoritmo es que si esto se convierte en una regla, van a existir seguros para ese tipo de programas, programas más caros, abogados involucrados, todo se vuelve más complicado.

Recientemente en Europa entró en vigor una normativa que pone límites legales a la protección de datos. ¿Puede ser un obstáculo para el desarrollo de los algoritmos y avanzar en ese sentido?

La idea de proteger los datos individuales es positiva pero a veces la implementación no es la mejor. La ley tiene algunas deficiencias, y en parte porque la hacen políticos y no expertos. Cuando hay políticos y abogados involucrados que no entienden el tema las cosas las complican. Es bueno y malo, las dos cosas. El problema también es que nos preocupamos de la ética después de que muere alguien. No antes, es decir, la tecnología va más rápido que la ética como siempre.

¿Como ves el mal uso que se le puede dar a la tecnología que ustedes están desarrollando?

Ha pasado en toda la historia de la humanidad que alguien inventa algo con un fin positivo y alguien lo usa con un fin negativo. Creo que no por eso lo tenemos que dejar de hacer. Hay que intentar hacer tecnología que pueda ser usada para el bienestar de las personas, pero lo que sí hay que tener son leyes muy claras y que se cumpla la ética. En otros temas esto se está cumpliendo más. Por ejemplo, en todo el tema de ingeniería genética, que ya se puede hacer con personas, por lo menos públicamente nadie lo ha hecho. La ética es clara de que hay una línea muy fina entre lo que es una cirugía plástica y el ser humano aumentado; y se ha cumplido eso. Si pones la ingeniería genética con el aprendizaje automático podrías llegar a hacer súper soldados por ejemplo. La pregunta es si lo van a hacer ¿Se va a hacer? ¿Lo están haciendo ya? Hay experimentos de computación social, como lo que está pasando en China y otros lugares, que parecían fantasía y son realidad. Tenemos que ser conscientes de que no hemos discutido mucho de estos temas. Cada vez estamos hablando más de estos temas pero estamos atrasados unos 10 años.

¿Cómo crees que va a cambiar nuestra consciencia sobre estos temas? Con el internet de las cosas, las Smart cities: ¿crees que los ciudadano deberán cambiar la forma en que se relacionen con los datos?

Sería bueno tener consciencia del valor que tienen los datos y cada vez que tengas que darlos tener conciencia de por qué los das, si es porque tienes el servicio gratuito por ejemplo. Y espero que a futuro por los datos más valiosos recibas algo a cambio, una especie de moneda virtual que a cambio de tus datos te de 1 Gb de almacenamiento en algún sitio, porque si no, se va a convertir en algo que te autorizo pero no lo es realmente. Espero que sí y espero que la parte legal avance también.

¿Cómo ves un futuro cercano, en 5 o 10 años?

Yo soy optimista. El futuro puede ser muy bueno, podría ser que en el futuro todas las personas hicieran lo que les gustaría hacer; que el trabajo no sea trabajo, que sea lo que me gusta hacer y vivir de eso. Que las máquinas aprendan de eso que yo sé, y seríamos profesores de máquinas. Eso para mí sería un futuro de bienestar completo porque es cierto que si hay robots que pueden hacer todo, va a ser mucho mejor. El trabajo físico lo van a hacer los robots, los recursos naturales los van a explotar los robots, etc. Ahora el problema es si logramos que eso sea algo que todos quieren para el bien de todos y no para el poder de algunos. Siempre tenemos ese problema entre los que quieren colaborar y los que quieren controlar. Y ahí a veces pienso que me gustó mucho la película The Arrival, porque me gustaría que eso llegue, que sean alienígenas bondadosos que llegaran pronto y nos dijeran cuál es el camino de la unión.

¿Cómo estás viendo a América Latina en relación a su desarrollo tecnológico?

Hay mucho menos por un tema de recursos, pero lo bueno de la tecnología es que permite que todos tengan la misma oportunidad, a diferencia de hace 200 años. Por lo menos tenemos todos el mismo acceso a la información, la diferencia es en los recursos que tenemos para poder usarla en forma correcta. También tenemos menos recursos humanos mientras que hay países que tienen a mucha gente trabajando en esto. La brecha cada vez es menor con los países desarrolladas, pero sí hay un tema de masa crítica, lo que puede pasar hoy en día es que los recursos humanos se vayan a países desarrollados porque les pagan mejor. Y si no hay políticas que traten de mantener a los talentos va a ser muy difícil acortar esa brecha.

Antes

Robots vs. Inteligencia Artificial

Adelante

El primer gran obstáculo para el Big Data

Ricardo Baeza-Yates es CTO de NTENT, una compañía de tecnología de búsqueda semántica basada en Carlsbad, California, desde junio de 2016. Es Director de los programas de ciencia de la computación de Northeastern University, campus Silicon Valley, desde enero de 2018. Antes fue Vicepresidente de Investigación de Yahoo Labs, primero en Barcelona y luego en Sunnyvale, desde enero del 2006 hasta febrero del 2016. Entre 2008 y 2012 también supervisó Yahoo Labs Haifa, y entre 2012 y 2015 estuvo a cargo de Yahoo Labs Londres. Hasta 2005 fue director del Centro de Investigación de la Web en el Departamento de Ciencias de la Computación de la Escuela de Ingeniería de la Universidad de Chile. Ricardo es fundador del Grupo de Ciencia de la Web y Computación Social en el Dept. de Tecnologías de la Información y las Comunicaciones de la Universitat Pompeu Fabra en Barcelona. Además es profesor adjunto del departamento de ciencia de la computación de la Universidad de Waterloo en Canadá.

Ricardo Baeza-Yates

@PolarBearby

Natalia Arralde es la Editora Ejecutiva de Amenaza Roboto. Ella se ha especializada en producción audiovisual (NHK-CTI Tokyo). Antes coordinó el proyecto "Periodismo en el Liceo" del MEC, el Servicio Informativo de Televisión Nacional de Uruguay y realizó servicios de producción de contenidos para cadenas internacionales como CNN y Al Jazeera. Además, ha ejercido el periodismo en canal 12, radio El Espectador y FM del Sol, El Observador y El País (suplemento Economía y Mercado). Natalia dicta clases en la Universidad de Montevideo.

Natalia Arralde

@NataliaArralde

Contenido Relacionado

Entrevista a Daniel Gatica Pérez, Investigador en Social Computing

Gatica Pérez entiende que la Inteligencia Artificial no es representativa de la diversidad y apuesta a un modelo en el que las diferencias estén reflejadas en los sistemas automáticos

El lado B de las redes

Seguridad y privacidad en Internet. Entrevista a Marta Peirano

Periodismo Predictivo

La periodista Giannina Segnini reflexiona sobre su disciplina y la tecnología: ¿cuál es la contracara de la era del Internet of Things, qué hacen Google, Amazon y Apple con nuestros datos?

Contenidos XS de Amenaza Roboto

Tech & Twitter

Ideas breves sobre la tecnología y la sociedad.

Números de la semana

Cifras claves del mundo tecnológico y científico.

Roboto News

Noticias tech en 3 minutos. Dale play!

Que comience el diálogo

¡Ponete en contacto con nosotros!

Amenaza Roboto: Periodismo Exponencial.

NTENT

NTENT es una de las empresas de EE.UU. que lidera la búsqueda semántica inteligente. Nació en 2010 de la fusión entre Convera Corporation y Firstlight ERA. NTENT Engine es una plataforma capaz de ofrecer a usuarios y empresas aplicaciones personalizadas para descifrar el significado del contenido en internet y detectar relaciones entre el contenido estructurado y no estructurado en tiempo real.