La estimación de profundidad es una desafiante tarea de visión computarizada necesaria para crear una amplia gama de aplicaciones en robótica, realidad aumentada (RA) y realidad virtual (VR). Las soluciones existentes a menudo se esfuerzan por estimar correctamente las distancias, lo que es un aspecto crucial para ayudar a planificar el movimiento y evitar obstáculos en lo que respecta a la navegación visual. Los investigadores de los laboratorios de Intel están abordando este problema mediante la liberación de dos modelosde IA 1 para estimación de profundidad monocular: uno para estimación de profundidad visual-inercial y uno para estimación robusta de la profundidad relativa (RDE).
El último modelo de RDE, MiDaS versión 3.1, predice una profundidad relativa robusta utilizando solo una sola imagen como entrada. Debido a su entrenamiento en un conjunto de datos grande y diverso, puede realizar de manera eficiente una gama más amplia de tareas y entornos. La última versión de MiDaS mejora la precisión del modelo para RDE en aproximadamente un 30% con su conjunto de entrenamiento más grande y las bases del codificador actualizadas.
MiDaS se ha incorporado a muchos proyectos, sobre todo en Stable Difussion 2.0, donde permite la característica de profundidad a imagen que infiere la profundidad de una imagen de entrada y, a continuación, genera nuevas imágenes utilizando tanto el texto como la información de profundidad. Por ejemplo, el creador digital Scottie Fox utilizó una combinación de Stable Diffusion y MiDaS para crear un entorno de RV en 360 grados. Esta tecnología podría dar lugar a nuevas aplicaciones virtuales, entre las que se incluyen escenas delictivas con procesos judiciales, entornos de inmersión para atención de la salud y experiencias de gaming inmersivas.
Intel presenta MiDaS 3.1 para visión computarizada
A finales de 2022, Intel Labs lanzó MiDaS 3.1, añadiendo nuevas características y mejoras al modelo de aprendizaje profundo de código abierto para la estimación de profundidad monocular en visión computarizada. MiDaS, capacitado en conjuntos de datos de imágenes grandes y diversos, es capaz de proporcionar una profundidad relativa en dominios interiores y exteriores, lo que la convierte en una base versátil para muchas aplicaciones. (Crédito: Intel Corporation)
Si bien la RDE tiene una buena generalización y es útil, la falta de escala disminuye su utilidad para tareas posteriores que requieren profundidad de métrica, como mapeo, planificación, navegación, reconocimiento de objetos, edición de imágenes y edición de imágenes en 3D. Los investigadores de los laboratorios de Intel están abordando este problema ofreciendo VI-Depth, otro modelo de IA que proporciona una estimación precisa de la profundidad.
VI-Depth es un proceso de estimación de profundidad visual-inercial que integra la estimación de profundidad monocular y odometría visual-incercial (VIO) para producir estimaciones de profundidad densas con una escala métrica. Este enfoque proporciona una estimación precisa de la profundidad, lo que puede ayudar a la concepción de escenas, el mapeo y la manipulación de objetos.
La incorporación de datos poco útiles puede ayudar a resolver la ambigüedad de la escala. La mayoría de los dispositivos portátiles ya contienen unidades de medición inerciales (IMUs). La alineación global determina la escala global adecuada, mientras la alineación de escala densa (SML) opera localmente y empuja o tracciona regiones hacia la profundidad métrica correcta. La red SML aprovecha MiDaS como base del codificador. En el proceso modular, VI-Depth combina la estimación de profundidad orientada por datos con el modelo de predicción de profundidad relativa MiDaS, junto con la unidad de medición de sensores IMU. La combinación de fuentes de datos permite que la profundidad VI genere una profundidad métrica densa más confiable por cada píxel de una imagen.
MiDaS 3.1 y VI-Depth 1.0 están disponibles bajo una licencia del MIT de código abierto en GitHub.
Más: Dispositivos de visión para predicciones densas | Hacia una estimación sólida de profundidad monocular: mezcle conjuntos de datos para una transferencia de conjuntos de datos cruzados de toma cero | Estimación de profundidad monocular visual-inercial