La imagen de las mil palabras
El campo de la visión por computadora es de las áreas más impactadas por el avance del aprendizaje profundo o Deep Learning. Muchas de las tecnologías de Machine Learning que usaremos en nuestras vidas cotidianas vendrán de los avances en este campo. Los vehículos autónomos, la realidad aumentada, los diagnósticos médicos basados en imágenes, o los sistemas de seguridad, son algunos ejemplos. En ésto se ha especializado la compañía Tryolabs, que recientemente presentó su producto Luminoth, una herramienta de Deep Learning que permite procesar información a partir de imágenes de fotos o videos.
Conceptos claves antes de leer la nota:
1
Machine Learning
Es la técnica dentro de la Inteligencia Artificial que permite que las máquinas aprendan automáticamente. Aprender, en este caso, significa identificar patrones complejos entre un enorme volumen de datos, lo más parecido posible a como lo haría una persona.
2
Deep Learning
En el aprendizaje profundo, grande redes neuronales artificiales se alimentan con algoritmos y cantidades crecientes de datos con el fin de mejorar la capacidad de "pensar" y "aprender" a medida que procesan unos volúmenes cada vez mayores de datos.
3
Internet of Things
Internet of things es un concepto que refiere a la conexión digital de los objetos cotidianos con Internet. Es una rama de la computación que busca desarrollar dispositivos que son "inteligentes", de cierto modo. Un ejemplo son las lamparitas que están conectadas a Internet y que puedes controlar con el celular.


Entrevista con Agustín Azzinari
¿A qué se dedica Tryolabs?

Tryolabs es una empresa boutique, uruguaya, que trabaja con Inteligencia Artificial y vende soluciones a startups en el exterior, en su mayoría California, San Francisco o Nueva York. Tryolabs provee desarrollo web, Internet of Things, Machine Learning y sobre todo, un contacto personalizado.

En Tryolabs los desarrolladores tienen contacto directo con los clientes. La experiencia principal de Tryolabs es buscar oportunidades, ayudar a conectar el desarrollo y los avances de la Inteligencia Artificial para generar nuevas aplicaciones de grado industrial.

¿Qué lugar ocupa el procesamiento de la imagen y la visión por computadora en Tryolabs?

Un lugar importante. En general el terreno de la visión por computadora ha evolucionado muy rápido en poco tiempo. Hay grandes avances. Las redes de aprendizaje profundo tienen una serie de propiedades que las hacen muy adecuadas para las tareas de procesamiento de imágenes. En Tryolabs hemos desarrollado Luminoth, una herramienta que hicimos que busca facilitar el procesamiento de imágenes.
Luminoth de tryolabs.com
¿En qué consiste Luminoth? ¿Qué usos tiene concretamente?

Luminoth es una herramienta de código abierto para visión artificial. Actualmente trabajamos con la detección de objetos y la clasificación de imágenes, pero apuntamos a explotarlo mucho más.

La herramienta te informa sobre el contenido de las imágenes. Por ejemplo, si vos le sacás una foto a tu perro, te puede decir que en esa foto hay un perro en determinado lugar de la imagen. Además, te podría decir que ese perro es un ovejero alemán. A la herramienta le podés dar una foto con diez perros y podría decirte de qué raza es cada uno de ellos. Tiene infinitas aplicaciones. Luminoth es una herramienta que te permite analizar el contenido más bien semántico de una imagen.

El ejemplo clásico que surgió en estos últimos años es el uso de los vehículos que se manejan en forma autónoma. Los vehículos necesitan saber qué hay alrededor y muchos dependen de la visión artificial y de las cámaras para medir qué objetos los rodean. En el caso de los drones que están volando a varios metros de altura pueden llegar a contar cuánta gente hay en un espectáculo público o cuánta forestación hay en un campo.

Luminoth se lanzó el año pasado en una conferencia en Londres, la Open Data Science Conference. Es la primera versión de la herramienta pero ya tiene funcionalidad útil entre varias empresas. Todo el desarrollo nos está dando frutos.

Llevado al extremo, en el caso de un auto autónomo una mala interpretación de la imagen podría ocasionar un accidente. ¿Qué margen de error manejan las herramientas de procesamiento de imagen?

Con estas herramientas nunca estás 100% seguro de tus resultados porque son modelos estadísticos.

Lo que ha habido es un gran salto en calidad de imagen y por eso se están empezando a buscar más aplicaciones. Hay soluciones más sensibles que se están usando para los vehículos autónomos que requieren alta calidad de imagen.

Cuando Google te etiqueta las fotos de tu celular y te clasifica, por ejemplo, los perros y se equivoca, por lo general no es tan terrible. Cuando estás en un auto es un problema serio. También se habló de que el gobierno de Estados Unidos estaba evaluando los ataques de drones autónomos y utilizar técnicas de visión por computadora. En ese caso es muy seria la consecuencia de un error.

Siempre se está evaluando cuál es el umbral de error que se va a permitir para poner en marcha una solución. Se va a ir mejorando el sistema hasta que no convenga mejorarlo más. Los umbrales pueden variar dependiendo del caso. Se podría decir que para un caso sensible, hasta que no sea más confiable que un humano, no se puede poner en producción. Ese sería un umbral.

¿Te inquieta el uso negativo que puede tener lo que vos desarrollás?

Sí, es una realidad preocupante. Nosotros estamos haciendo investigación. Si lo podemos hacer dos o tres personas, lo puede hacer cualquier persona si tiene fines maliciosos.

La detección de objetos es algo básico. Pero tenés la posibilidad de detectar a las personas a través de una cámara de seguridad. Y si ponés cámaras en toda la ciudad podrías procesar las 600 cámaras a la vez, identificar a las personas que caminan, poner más cámaras, miles, millones. No es que venga un Terminator, pero el uso de la tecnología depende a qué se orienta.

El gobierno chino propuso triplicar las cámaras de seguridad que tiene el país, pasar a tener 625 millones de cámaras con el objetivo principal de mejorar la seguridad. La tecnología habilita a hacer algo básico pero a gran escala vos no sabés qué se puede hacer. Se podrías identificar dónde está cada ciudadano de tu país en cada segundo del día. Eso son los riesgos más grandes que le veo, el mal uso.

Yo no voy a dejar de desarrollarlo porque se pueden encontrar muy buenos usos, en la medicina puntualmente puede ayudar mucho en el diagnóstico de enfermedades. Por otra parte, si no lo desarrollás vos lo va a desarrollar alguien más. La academia lo va haciendo en conjunto. No es que una persona sea el genio que descubre las cosas: es toda la comunidad que está acercándose a eso.

¿Qué esperás que suceda con Tryolabs en los próximos años?

Que la apuesta de Luminoth pueda crecer, que sea una herramienta más accesible, que más gente la pueda usar, y que pueda atraer más proyectos de visión por computadora.

Todo el código que hicimos de la herramienta es abierto, se puede entrar, se puede ver. Nos estamos alimentando de esa investigación que es abierta y es una forma de devolver.

En cuanto a Machine Learning siempre está la incógnita de qué más le puedo hacer a la computadora. Hace unos años pensar que un auto se manejara solo parecía imposible. Con Machine Learning el potencial no está definido, a diferencia de la computación tradicional donde ya sabés lo que podés esperar. La incógnita de hasta dónde se puede llegar es muy interesante.




Agustín Azzinnari es Ingeniero e Investigador. Forma parte del equipo de Tryolabs. Tiene una licenciatura en Ciencias de la Computación enfocada en técnicas de Aprendizaje Automático. Se ha especializado en realizar investigaciones y análisis de problemas, así como en escribir código Python de calidad superior.

Agustín Azzinnari
Ingeniero e investigador
Natalia Arralde es la Editora Ejecutiva de Amenaza Roboto.
Ella es una periodista especializada en producción audiovisual (NHK-CTI Tokyo).
Antes coordinó el proyecto "Periodismo en el Liceo" del MEC, el Servicio Informativo de Televisión Nacional de Uruguay y realizó servicios de producción de contenidos para cadenas internacionales como CNN y Al Jazeera. Además, ha ejercido el periodismo en canal 12, radio El Espectador y FM del Sol, El Observador y El País (suplemento Economía y Mercado).
Natalia dicta clases en la Universidad de Montevideo.

Natalia Arralde
Editora Ejecutiva
Contenidos XS de Amenaza Roboto
Tech & Twitter
Ideas breves sobre la tecnología y la sociedad.
Roboto News
Noticias tech en 3 minutos. Dale play!
Áreas a explorar
Que comience el diálogo
¡Ponete en contacto con nosotros!