Eliminando la complejidad del deep learning

Agricultura
Agua

Los últimos años han visto un marcado aumento en el uso del deep learning (aprendizaje profundo) dentro de la comunidad de teledetección. A medida que esta tecnología emergente ha comenzado a ponerse al día, los profesionales de la industria geoespacial a menudo preguntan: «¿Qué es el deep learning y cómo puedo usarlo para mi aplicación?» Este artículo desmitifica algunas de las incógnitas en torno al deep learning y muestra ejemplos de cómo lo hemos aplicado a las imágenes de teledetección en Harris Geospatial Solutions.

(Izquierda) Ortofoto de un barrio en Puerto Príncipe, Haití después del terremoto de enero de 2010 (Derecha) Mapa de activación de clase creado en ENVI, que muestra áreas de escombros identificadas a partir de un modelo de deep learning.

El concepto de deep learning ha existido durante muchos años, pero solo recientemente la gente ha comenzado a explorar todo su potencial para resolver problemas geoespaciales con imágenes. Cuando consideramos cómo se aplica el deep learning a las imágenes, a menudo pensamos en el reconocimiento de objetos, como la capacidad de identificar caras o vehículos a partir de fotografías digitales. Si bien ese sigue siendo un uso popular, existe una creciente necesidad de identificar y clasificar objetos en un área geográfica grande. Una búsqueda en internet de «deep learning en teledetección» revela algunas de las aplicaciones donde se ha utilizado hasta la fecha, a saber, clasificación de imágenes, mapeo de vegetación y planificación urbana. Entonces, ¿qué es el deep learning y por qué hay tanta publicidad a su alrededor?

El aprendizaje profundo es realmente una forma sofisticada de machine learning (aprendizaje automático) que permite que un sistema descubra automáticamente representaciones en los datos. Puede mejorar continuamente las predicciones por sí solo sin mayor guía. Aprende patrones progresando a través de múltiples capas en una red neural para sacar conclusiones, de forma similar a cómo el cerebro procesa la información. Cuando se aplica a imágenes teledetectadas, se puede usar para buscar entidades como vehículos, estructuras de servicios públicos o marcas viales. A mayor escala, se puede usar para encontrar patrones específicos de uso del suelo, redes de carreteras y nubes en imágenes ópticas. El resultado es un tipo especial de imagen de clasificación llamado mapa de activación de clase, que indica la probabilidad de que cada píxel coincida con una entidad dada. La siguiente figura muestra un ejemplo que identifica vehículos en una ortofoto de alta resolución.

En comparación con los métodos de clasificación supervisados tradicionales, como Support Vector Machine (SVM), el deep learning puede extraer representaciones más robustas de entidades, lo que mejora la precisión de la clasificación. Los algoritmos del deep learning son adecuados para extraer entidades de un origen complejo, independientemente de su forma, color, tamaño y otros atributos.

Al igual que con cualquier problema de clasificación que implique la capacitación de una red neural, los usuarios deben proporcionar muestras de las entidades que les interesan, un proceso denominado etiquetado. A medida que la cantidad de datos de pequeños satélites y drones continúa creciendo exponencialmente con el tiempo, proporcionar etiquetas de entidades puede ser costoso y llevar mucho tiempo. Una vez que se han creado las etiquetas, ¿cómo se ingresan a un modelo de aprendizaje profundo para que pueda ser entrenado para identificar las mismas entidades en otras imágenes? Una vez más, una búsqueda en internet sobre este tema revela una curva de aprendizaje empinada con muchos diagramas complejos y términos desconocidos. Los investigadores a veces desarrollan sus propios algoritmos y arquitecturas, pero en su mayoría utilizan librerías de código abierto para el deep learning, lo que implica una amplia programación en Python o C ++.

El módulo ENVI Deep Learning está diseñado específicamente para superar estas limitaciones y hacer que el deep learning esté más ampliamente disponible para la comunidad de teledetección convencional. Aprovecha la tecnología de aprendizaje profundo TensorFlow, ampliamente utilizada y probada, sin requerir que los usuarios escriban una sola línea de código API. En cambio, una interfaz de usuario simple guía a los usuarios a través del proceso de creación de un conjunto de datos etiquetado, capacitación de un modelo y creación de un mapa de activación de clase del resultado:

Aquí hay un ejemplo de cómo se puede usar el deep learning en la teledetección: suponga que desea identificar todas las filas de cultivos agrícolas en una imagen. En muchas áreas del mundo, los cultivos se plantan a lo largo de hileras curvas. Esto dificulta la extracción   automática de las filas utilizando métodos de clasificación tradicionales. Un modelo de deep learning sería perfecto para esta tarea. Sin embargo, etiquetar las filas a mano podría llevar horas solo para proporcionar muestras de capacitación para el modelo. Para mostrar cómo se pueden utilizar los análisis de ENVI para resolver este problema, se seleccionaron dos pequeños subconjuntos espaciales para el entrenamiento a partir de una imagen de un campo agrícola que tenía un tamaño de 4200 x 6400 píxeles. En cada subconjunto, se usó la herramienta ENVI Región de interés (ROI) para dibujar polilíneas a lo largo de las filas de cultivo. Este proceso de etiquetado solo tomó unos minutos. Los ejemplos etiquetados se usaron para entrenar un modelo de deep learning para identificar las filas de cultivos restantes en la imagen completa (mostrada con líneas azules a continuación).

Usando solo un puñado de ejemplos etiquetados, el modelo aprendió a identificar todas las filas de cultivos. La capacitación fue un proceso de una sola vez. El modelo entrenado ahora se puede aplicar a otras imágenes similares.

Las herramientas de preprocesamiento de ENVI aumentan el proceso de deep learning. Las herramientas tales como la calibración, el estiramiento y la transformación del espacio de color crean datos consistentes necesarios para los modelos de deep learning. Las herramientas de clasificación espectral y detección de objetivos se pueden utilizar para crear conjuntos de datos etiquetados sin la necesidad de dibujar manualmente el ROI en las imágenes. Algunos de nuestros ingenieros experimentaron con el uso de huellas de construcción de OpenStreetMap como entrada para un modelo de deep learning para la extracción de azoteas en una gran escena urbana. La siguiente imagen muestra el mapa de activación de clase resultante superpuesto en una ortofoto:

El módulo Deep Learning fue diseñado para ocultar a los analistas de imágenes que usan ENVI regularmente la complejidad de las redes neurales convolucionales. Sin embargo, permite a los usuarios que desean un mayor control sobre el proceso de capacitación ajustar los parámetros para lograr la mejor precisión. Los usuarios también pueden aprovechar el marco API de ENVITask y el ENVI Modeler para personalizar los flujos de trabajo de deep learning. La información basada en imágenes que proporciona ENVI Deep Learning ayudará a los profesionales a resolver problemas geoespaciales que no se pueden resolver solo con datos GIS.

 

Jason Wolfe

L3HARRIS GEOSPATIAL SOLUTIONS

comentarios

0