El último algoritmo de visión por computadora del MIT identifica imágenes hasta el píxel

Para los humanos, identificar elementos en una escena, ya sea un aguacate o un Aventador, una pila de puré de papas o una nave nodriza alienígena, es tan fácil como mirarlos. Pero para los sistemas de inteligencia artificial y visión por computadora, se necesita un poco más de esfuerzo para desarrollar una comprensión de alta fidelidad de su entorno. Bueno, mucho más esfuerzo. Alrededor de 800 horas de imágenes de ejercicios de etiquetado manual, si somos específicos. Para ayudar a las máquinas a ver mejor cómo los humanos hacen eso, un equipo de investigadores de MIT CSAIL, en colaboración con la Universidad de Cornell y Microsoft, ha desarrollado STEGO, un algoritmo que puede identificar imágenes hasta el píxel individual.

imagínate mirando a tu alrededor, pero como una computadora

MIT CSAIL

Por lo general, la creación de datos de entrenamiento de currículum implica que un humano dibuje cuadros alrededor de objetos específicos en una imagen, por ejemplo, un cuadro alrededor del perro sentado en un campo de hierba, y etiquete esos cuadros con lo que hay dentro (“perro”), por lo que la IA se entrenó en podrá distinguir al perro de la hierba. STEGO (Transformador autosupervisado con optimización gráfica basada en energía), por otro lado, utiliza una técnica conocida como segmentación semántica, que aplica una etiqueta de clase a cada píxel de la imagen para darle a la IA una imagen más precisa de la imagen. mundo a su alrededor.

Mientras que un cuadro etiquetado tendría el objeto más otros elementos en los píxeles circundantes dentro del límite del cuadro, la segmentación semántica etiqueta cada píxel del objeto, pero nada pero los píxeles que componen el objeto: solo obtienes píxeles de perro, no píxeles de perro más algo de hierba. Es el equivalente de aprendizaje automático de usar el lazo inteligente en Photoshop en comparación con la marquesina rectangular.

El problema con esta técnica es uno de alcance. Los sistemas supervisados ​​de tomas múltiples convencionales a menudo requieren miles, si no cientos de miles de imágenes etiquetadas para entrenar el algoritmo. Multiplique eso por los 65 536 píxeles individuales que componen incluso una sola imagen de 256×256, todos los cuales ahora también deben etiquetarse individualmente, y la carga de trabajo requerida rápidamente se vuelve imposible.

En cambio, STEGO “busca objetos similares que existen en un conjunto de datos”, escribió el equipo de CSAIL en un comunicado de prensa el jueves. “Luego vincula estos objetos similares para construir una imagen consistente del mundo para todas las imágenes de las que aprende”.

“Cuando miras escaneos oncológicos, la superficie de los planetas o imágenes biológicas de alta resolución, es difícil saber qué objetos buscar sin el conocimiento de un experto. En los dominios emergentes, a veces incluso los expertos humanos no saben cuáles deberían ser los objetos correctos”, dijo Mark Hamilton, estudiante de doctorado de MIT CSAIL, ingeniero de software de Microsoft y autor principal del artículo. “En este tipo de situaciones en las que desea diseñar un método para operar en las fronteras de la ciencia, no puede confiar en que los humanos lo averigüen antes que las máquinas”.

Entrenado en una amplia variedad de dominios de imágenes, desde interiores hasta imágenes aéreas de gran altitud, STEGO duplicó el rendimiento de los esquemas de segmentación semántica anteriores, igualando de cerca las evaluaciones de imágenes del control humano. Además, “cuando se aplicó a conjuntos de datos de automóviles sin conductor, STEGO segmentó con éxito carreteras, personas y letreros de calles con una resolución y granularidad mucho más altas que los sistemas anteriores. En imágenes del espacio, el sistema dividió cada metro cuadrado de la superficie terrestre en caminos, vegetación y edificios”, escribió el equipo CSAIL del MIT.

imagínate mirando a tu alrededor, pero como una computadora

MIT CSAIL

“Al crear una herramienta general para comprender conjuntos de datos potencialmente complicados, esperamos que este tipo de algoritmo pueda automatizar el proceso científico de descubrimiento de objetos a partir de imágenes”, dijo Hamilton. “Hay muchos dominios diferentes donde etiquetar a las personas sería prohibitivamente costoso, o donde las personas ni siquiera conocen la estructura específica, como en ciertos dominios biológicos y astrofísicos. Esperamos que el trabajo futuro permita la aplicación a una amplia gama de conjuntos de datos. Debido a que no necesita etiquetas humanas, ahora podemos aplicar herramientas de ML más ampliamente”.

A pesar de su desempeño superior a los sistemas que lo precedieron, STEGO tiene limitaciones. Por ejemplo, puede identificar tanto la pasta como la sémola como “alimentos”, pero no hace una buena distinción entre ellos. También se confunde con imágenes sin sentido, como un plátano posado en un auricular de teléfono. ¿Es esto un alimento? ¿Es esto una paloma? STEGO no lo sabe. El equipo espera incorporar algo más de flexibilidad en iteraciones futuras para que el sistema pueda identificar objetos en varias clases.

Todos los productos recomendados por Engadget han sido seleccionados por nuestro equipo editorial, independiente de nuestra empresa matriz. Algunas de nuestras historias contienen enlaces de afiliados. Si compra algo a través de uno de estos enlaces, podemos ganar una comisión de afiliado.

Leave a Comment