¿Puede “ver” una máquina? Visión por computador y sus aplicaciones

Algo se mueve entre las sombras a unos pocos metros, en el arcén, avanzando hacia la carretera. Por el tamaño y forma del objeto, podría ser un peatón. “¡Alerta de colisión!”, anuncia el sistema del coche autónomo, mientras activa el frenado de emergencia.

La visión por computador puede realizar tareas extremadamente complejas gracias a los avances en inteligencia artificial y aprendizaje profundo. Su gran precisión ha permitido que se utilice en áreas tan diversas como la medicina, la automoción y la seguridad. Tanto es así que hoy es posible imaginar un mundo donde los ordenadores pueden “ver” e interpretar el entorno prácticamente como las personas. ¿Qué cambios traerá la visión por computador a nuestra vida cotidiana?

La visión por computador, una rama de la IA

La visión por computador es una rama de la inteligencia artificial (IA) que permite a los ordenadores analizar imágenes y vídeos. Su objetivo último es desarrollar sistemas capaces de procesar e interpretar información visual de manera similar a un humano, para aplicarla a la toma de decisiones.

Los algoritmos de visión por computador son técnicas computacionales diseñadas para que las máquinas puedan interpretar y comprender imágenes del mundo real. Estos algoritmos analizan y procesan datos visuales capturados por cámaras y sensores. Los primeros intentos datan de mediados del siglo XX, con métodos básicos de procesamiento de imágenes.

Para comprender el funcionamiento de la visión por computador, resulta útil considerar el sistema visual humano como analogía. Un sistema de visión por computador tiene dos componentes principales: un dispositivo sensor que imita la función del ojo para capturar imágenes y un potente algoritmo que imita la función del cerebro para comprender e interpretar los datos visuales.

Para cada caso y cada tarea específica, es importante seleccionar el dispositivo sensor más adecuado. Puede ser una cámara, un radar o algo más específico como un detector digital de rayos X. También es posible utilizar una combinación de dispositivos para proporcionar una escena completa.

Redes convolucionales

La técnica de visión por computador más utilizada hoy en día son las redes convolucionales, cuyo origen se remonta a 1998, aunque su verdadera explosión llegó en el año 2012. Dos hitos permitieron este éxito: la disponibilidad de conjuntos de datos a gran escala, con el auge del big data, y el aumento de la potencia de cálculo, con el desarrollo de potentes tarjetas gráficas (GPU).

La arquitectura de una red convolucional se compone de una secuencia de capas que realizan diversas operaciones matemáticas. Las primeras capas extraen características relevantes de las imágenes. Las capas finales utilizan esas características para resolver la tarea específica para la que la red ha sido diseñada.

Las redes convolucionales tienen una amplia gama de aplicaciones presentes en nuestra vida cotidiana. Se utilizan, por ejemplo, en sistemas de seguridad y vigilancia para detectar y alertar sobre actividades sospechosas. También están presentes en los teléfonos inteligentes, con el desbloqueo mediante reconocimiento facial o el retoque de fotografías.

Es una tecnología crucial que está transformando múltiples sectores con aplicaciones más especializadas. En medicina, se utiliza en el diagnóstico por imagen. En vehículos autónomos, permite detectar peatones, señales y otros vehículos, y reaccionar ante ellos.

Vídeo de Joseph Redmon, autor de un método de detección de objetos.

Implicaciones éticas de la visión por computador

En la otra cara de la moneda, el uso de la visión por computador plantea importantes problemas éticos y legales. Un tema crítico es la privacidad y el manejo de datos sensibles. Las cámaras de seguridad y los sistemas de reconocimiento facial pueden recolectar gran cantidad de información personal sin el consentimiento de los individuos.

Estas implicaciones cobran mayor importancia en contextos donde la toma de decisiones automatizadas afectan a seres humanos, planteando riesgos y sesgos inherentes. En la identificación de sospechosos en investigaciones criminales puede llevar a discriminaciones injustas. En el caso de diagnósticos médicos, las decisiones erróneas pueden impactar negativamente en la vida de las personas.

La Ley de IA, aprobada recientemente por la Unión Europea, introduce obligaciones de transparencia para todos los modelos de IA de uso general. En áreas donde las decisiones tienen un alto riesgo, como ocurre con la visión por computador aplicada a las personas, la transparencia no solo es una exigencia ética y legal. Se trata también de una necesidad práctica para asegurar la confianza y la aceptación de las tecnologías por parte sus usuarios.

La visión por computador, una versión mejorada de la humana

Los modelos de aprendizaje profundo, y en particular las redes convolucionales, a menudo se describen como “cajas negras” porque es imposible conocer el proceso o los pasos por los que llegan a determinado resultado. Además, pueden incorporar sesgos inadvertidos en los procesos de toma de decisiones. Para abordar estos desafíos, se han desarrollado técnicas que permiten analizar las características que el modelo tiene en cuenta o considera más importantes durante la toma de decisiones.

Otra posibilidad es obtener explicaciones visuales que destaquen, por ejemplo, las regiones de las imágenes que el modelo ha tenido en cuenta para llegar a una u otra decisión (como el frenado de emergencia que abre este artículo, por ejemplo). En un momento en el que podemos soñar con que los ordenadores puedan “ver” como los humanos, debemos luchar para que no hereden nuestros sesgos y sean una versión mejorada de nosotros mismos.

Este artículo forma parte de una colaboración con Santander Open Academy, una iniciativa global de Banco Santander que ofrece a cualquier persona acceso a formación para mejorar sus competencias profesionales y su empleabilidad. Incluye cursos 100% subvencionados, contenidos de calidad gratuitos y becas con universidades e instituciones líderes de todo el mundo. Más información en www.santanderopenacademy.com.

¿Puede “ver” una máquina? Visión por computador y sus aplicaciones

Author

Disclosure statement

Partners

La visión por computador, una rama de la IA

Redes convolucionales

Implicaciones éticas de la visión por computador

La visión por computador, una versión mejorada de la humana

Want to write?