Otro tipo de software clave dentro del conjunto de la IA es el de la simulación de la visión y el reconocimiento de imágenes, a través de la visión artificial. Vamos a ver en este post, cuán avanzado está este campo y cuáles son sus usos reales.
Cómo definimos en el primer post de esta serie, podemos definir a la Inteligencia Artificial categoría de software que imita las capacidades y comportamientos humanos. Por supuesto una de estas capacidades clave es la visión y el entendimiento del mundo que nos rodea a través de la misma.
Los softwares de visión artificial son capaces de capturar, procesar, analizar y comprender imágenes para generar datos que puedan ser a posteriori analizados para cualquier fin. Esto es posible gracias a diferentes subtareas que se combinan entre ellas para devolver al usuario estos datos sobre la realidad que se observa a través de una cámara.
La mayoría de los soluciones de visión artificial están basados en modelos de Machine Learning que se aplican a este input de una cámara, de imágenes o vídeos. En informática cualquier imagen puede ser descompuesta en pixels y a partir de ahí clasificada dependiendo de su contenido, está es la base para que estos software puedan llevar a cabo todas estas.funcionalidades.
Tareas dentro de la visión artificial
- Clasificación de imágenes - La tarea más básica es la de clasificar las imágenes que le lleguen dependiendo de su contenido. Esto es posible a través del entrenamiento de modelos de Machine Learning con millones de imágenes en los que se debe ir corrigiendo el sistema para que vaya afinando sus vectores.
Podemos encontrar esta funcionalidad en múltiples uso por ejemplo en los propios buscadores de internet, los cuales realizan un constante rastreo de las webs clasificando sus imágenes para poder responder a las búsquedas posteriores. - Detección de objetos - En este caso hablamos de un paso más. Ya no se trata de modelos para clasificar una imagen sino de ser capaces de identificar y localizar objetos individuales dentro de la misma.
De esta categoría me viene a la cabeza las cámaras termográficas que se usaban durante la pandemia, estás eran capaces de localizar personas entrando a los edificios, marcando su cabeza con un rectángulo para medir su temperatura o las imágenes que vemos a veces de sistemas de identificación en China, que localizan e identifican a personas de edta manera. - Segmentación semántica - En este caso, los diferentes objetos de la imagen se aíslan y clasifican pero a la vez se clasifican todos los píxeles pertenecientes a dicho objeto, los cuales se suelen marcar en diferentes capas utilizando diferentes colores. En una escena de tráfico tendríamos peatones, vehículos.. marcados de manera individual pero a la vez englobados en categorías, por ejemplo para lanzar alertas en caso de que un vehículo invadiera la acera por ejemplo
- Detección facial - Aprovechando las capacidades que acabamos de explicar, la detección facial se trata de un refinamiento en pos de poder identificar esas caras de personas en base a ciertos parámetros de geometría facial y combinarlos en muchos casos con bases de datos policiales, para ser capaces de identificar individuos en tiempo real. Este punto, es como quasi todo en IA.
- Análisis de imagen - Combinando técnicas de visión artificial y Machine learning, llegamos al análisis de imagen. Esto permite que a partir de una imagen se aislen sus componentes pero además se intérprete en forma de texto o voz que se está “viendo”. Esto tiene un sin fin de posibilidades, por ejemplo la ayuda a personas invidentes con descripciones en tiempo real de que tienen ante ellos.
- Reconocimiento de texto - Está seguro que os suena y más que posiblemente la habéis utilizado ya alguna vez. La capacidad de reconocer texto en imágenes permite al software interpretar el texto presente en la misma. Clásicamente eso se ha usado para sacar el texto de escaneos, pero también se utiliza para por ejemplo leer las matrículas en los radares. De esta manera automatizar el proceso de sanción o para detectar coches que no debieran poder pasar por una zona de bajas emisiones, coches que circulen sin seguro o coches robados por ejemplo.
Como podemos ver en este área, las capacidades de la IA están de nuevo altamente desarrolladas exponiendo de nuevo la necesidad de un uso ético de la misma. Este dilema favorece a aquellos que desarrollan este campo sin ataduras, como China, país líder sin discusión actualmente en esta rama. Hasta el próximo post!