La investigación de IA es un bote de basura y Google está reteniendo los partidos

El mundo de la investigación en IA está en ruinas. Desde los académicos que priorizan los planes de dinero fácil sobre el trabajo innovador, hasta la élite de Silicon Valley que usa la amenaza de recortes de empleos para fomentar hipótesis favorables a las empresas, el sistema es un desastre.

Y Google merece la mayor parte de la culpa.

Cómo empezó

En el año 2000, se publicaron aproximadamente 85 000 artículos de investigación sobre IA/ML en todo el mundo. Avance rápido hasta 2021 y casi el doble se publicaron solo en los EE. UU.

Decir que ha habido una explosión en el campo sería quedarse corto. Esta afluencia de investigadores y nuevas ideas ha hecho que el aprendizaje profundo sea una de las tecnologías más importantes del mundo.

Entre 2014 y 2021, las grandes tecnológicas casi han abandonado sus principios de ‘web primero’ y ‘móvil primero’ para adoptar estrategias de ‘IA primero’.

Ahora, en 2022, los desarrolladores e investigadores de IA tendrán una mayor demanda (y remuneración) que casi cualquier otro trabajo tecnológico fuera del C-suite.

Pero este tipo de crecimiento desenfrenado también tiene un inconveniente. En la lucha por satisfacer la demanda del mercado de productos y servicios basados ​​en el aprendizaje profundo, el campo se ha vuelto tan despiadado y errático como los deportes profesionales.

En los últimos años, hemos visto al “padre GAN”, Ian Goodfellow, saltar de Google a Apple, Timnit Gebru y otros han sido despedidos de Google por disentir sobre la efectividad de la investigación, y una avalancha virtual de documentos cuestionables de IA logran comparar revisar de alguna manera.

El flujo de talento que llegó a raíz de la explosión del aprendizaje profundo también trajo consigo una avalancha de investigación deficiente, fraude y codicia corporativa.

Cómo estás

Google, más que cualquier otra empresa, tiene la responsabilidad del paradigma moderno de IA. Eso significa que tenemos que dar la máxima puntuación para llevar el procesamiento del lenguaje natural y el reconocimiento de imágenes a las masas.

También significa que podemos elogiar a Google por crear el entorno de investigador-come-investigador en el que algunos estudiantes universitarios y sus profesores de alta tecnología tratan los trabajos de investigación como poco más que un cebo para los capitalistas de riesgo y los cazatalentos corporativos.

En la parte superior, Google mostró su voluntad de contratar a los investigadores más talentosos del mundo. Y también se ha demostrado innumerables veces que los despedirá en un instante si no se apegan a la línea de la empresa.

La compañía fue noticia en todo el mundo después de despedir a Timnit Gebru, un investigador que contrató para dirigir su departamento de ética de IA, en diciembre de 2020. Solo unos meses después, despidió a otro miembro del equipo, Margaret Mitchell.

Google afirma que el trabajo de los investigadores no cumplió con las especificaciones, pero las mujeres y numerosos simpatizantes afirman que los despidos se produjeron solo después de plantear preocupaciones éticas sobre la investigación firmadas por el jefe de inteligencia artificial de la compañía, Jeff Dean.

Apenas ha pasado un año y la historia se repite. Google despidió a otro investigador de IA de renombre mundial, Satrajit Chatterjee, después de liderar un equipo de científicos que desafió otro documento que Dean había firmado.

El efecto de flujo de lodo

En la parte superior, esto significa que la competencia por trabajos bien remunerados es feroz. Y la búsqueda del próximo investigador o desarrollador talentoso comienza más pronto que nunca.

Se espera que los estudiantes que avanzan hacia títulos avanzados en aprendizaje automático e IA, que eventualmente quieran trabajar fuera de la academia, escriban o sean coautores de trabajos de investigación que demuestren su talento.

Desafortunadamente, la tubería desde la academia hasta la gran tecnología o el mundo de las empresas emergentes lideradas por VC está plagada de artículos de mala calidad escritos por estudiantes cuya única inclinación es escribir algoritmos que pueden generar dinero.

Una búsqueda rápida en Google Scholar de “procesamiento del lenguaje natural”, por ejemplo, arroja casi un millón de resultados. Muchos de los periódicos mencionados tienen cientos o miles de citas.

A primera vista, esto indicaría que la PNL es un subconjunto próspero de la investigación del aprendizaje automático que ha captado la atención de investigadores de todo el mundo.

Las búsquedas de “red neuronal artificial”, “visión por computadora” y “aprendizaje de refuerzo” arrojaron una gran cantidad de resultados similares.

Desafortunadamente, una cantidad significativa de la investigación de IA y ML es intencionalmente fraudulenta o contiene mala ciencia.

Lo que pudo haber funcionado bien en el pasado se está convirtiendo rápidamente en una forma potencialmente obsoleta de comunicar la investigación.

Stuart Richie de The Guardian escribió recientemente un artículo cuestionando si deberíamos eliminar por completo los trabajos de investigación. Según ellos, los problemas de la ciencia están bastante arraigados:

Este sistema plantea problemas importantes. El principal de ellos es el tema del sesgo de publicación: es más probable que los revisores y editores escriban bien un artículo científico y lo publiquen en su revista si reporta resultados positivos o emocionantes. Por lo tanto, los científicos hacen todo lo posible para darle vida a sus estudios, apoyarse en sus análisis para obtener “mejores” resultados y, a veces, incluso cometer fraude para impresionar a esos importantes guardianes. Esto distorsiona drásticamente nuestra visión de lo que realmente sucedió.

El problema es que los guardianes que todos intentan impresionar son las claves para el futuro empleo de los estudiantes y la admisión de académicos en prestigiosas revistas o conferencias: los investigadores no pueden obtener su aprobación por su cuenta y riesgo.

E incluso si un documento pasa la revisión por pares, no hay garantía de que las personas que empujan las cosas no se queden dormidas en el interruptor.

Es por eso que Guillaume Cabanac, profesor asociado de informática en la Universidad de Toulouse, puso en marcha un proyecto llamado Problematic Paper Screener (PPS).

El PPS utiliza la automatización para marcar documentos que pueden contener código, matemáticas o vocabulario problemático. En el espíritu de la ciencia y la equidad, Cabanac se asegura de que cada trabajo marcado sea revisado manualmente por personas. Pero el trabajo es probablemente demasiado grande para que lo haga un puñado de personas en su tiempo libre.

Según un informe de Spectrum News, hay muchos periódicos problemáticos. Y la mayor parte tiene que ver con el aprendizaje automático y la IA:

El evaluador encontró que alrededor de 7650 estudios eran problemáticos, incluidos más de 6000 por tener oraciones torturadas. La mayoría de los documentos de sentencia torturados parecen provenir del aprendizaje automático, la inteligencia artificial y la ingeniería.

Las frases torturadas son términos que levantan banderas rojas entre los investigadores porque intentan describir un proceso o concepto que ya está bien establecido.

Por ejemplo, el uso de términos como “neuronal falso” o “neuronal hecho por el hombre” podría indicar el uso de un complemento de diccionario de sinónimos utilizado por malos actores que intentan salirse con la suya plagiando trabajos anteriores.

La solución

Si bien no se puede culpar a Google por todo lo desagradable en el campo del aprendizaje automático y la IA, ha jugado un papel escandaloso en la devolución de la investigación revisada por pares.

Esto no quiere decir que Google no apoye y apoye a la comunidad científica a través del código abierto, la ayuda financiera y el apoyo a la investigación. Y ciertamente no estamos tratando de sugerir que todos los que estudian IA simplemente buscan ganar dinero rápido.

Pero el sistema se configuró primero para fomentar la monetización con algoritmos y, en segundo lugar, para desarrollar aún más el campo. Para cambiar esto, tanto la gran tecnología como la academia deben comprometerse con reformas masivas en la forma en que se presenta y evalúa la investigación.

Actualmente, no existe un verificador de papel de terceros ampliamente reconocido. El sistema de revisión por pares es más un código de honor que un conjunto de principios acordados seguidos por las instituciones.

Sin embargo, la prioridad es establecer y operar un comité de supervisión con el alcance, la influencia y la experiencia para gobernar más allá de los límites académicos: la NCAA.

Si podemos reunir un sistema de competencia justa para miles de programas atléticos amateur, es una apuesta segura que podemos formar un órgano rector para establecer pautas para la investigación y evaluación académica.

Y en cuanto a Google, hay más de cero posibilidades de que el CEO Sundar Pichai se vea nuevamente ante el Congreso si la compañía continúa despidiendo a los investigadores que contrata para supervisar sus programas éticos de IA.

El capitalismo estadounidense sostiene que, en general, una empresa es libre de contratar y despedir a quien quiera, pero los accionistas y empleados también tienen derechos.

En última instancia, Google tendrá que comprometerse con la investigación ética o no podrá competir con las empresas y organizaciones que estén dispuestas a hacerlo.

Leave a Comment