Hicieron una empresa donde todos los empleados son IA: cuáles fueron los resultados

Durante algunas semanas, nadie tomó un café en la oficina, no hubo almuerzos compartidos, no hubo charlas cara a cara, mucho menos festejos de cumpleaños ni momentos recreativos. Sin embargo, la empresa funcionó o al menos lo intentó.

La escena pareciera salida de una novela de ciencia ficción: una compañía de software donde todos los empleados, desde los programadores hasta los responsables de recursos humanos, son agentes de inteligencia artificial. Una empresa sin personas. La idea no surgió en Silicon Valley, sino que nació como un experimento académico en la Carnegie Mellon University (CMU), una de las universidades más prestigiosas del mundo en ciencia y tecnología.

El equipo de investigadores creó The Agent Company, una empresa simulada con tareas inspiradas en el trabajo del mundo real: desarrollo de software, análisis de datos, gestión de proyectos, administración y finanzas. Cada rol fue ocupado por un agente de IA distinto. El objetivo era claro: evaluar si la IA, operando en conjunto, puede realizar el trabajo de una empresa real. Más bien, si los humanos ya somos reemplazables en su totalidad. Un informe de Goldman Sachs de 2023 ya había indicado que la IA podría sustituir el equivalente a 300 millones de empleos a tiempo completo. Quedaba demostrarlo.

“Mucho se habla sobre si los agentes de IA reemplazarán tareas humanas, pero no existía un entorno que simulara realmente el día a día de una oficina”, explicó el investigador Yufan Song, uno de los autores del estudio, en diálogo con el medio Infobae. Por eso, decidieron crear una empresa ficticia desde cero. Armaron equipos, asignaron proyectos, integraron herramientas reales —como navegadores web y software de documentación— y hasta simularon conversaciones entre compañeros.

Las tareas fueron diversas. Algunas, simples para un humano como completar un documento, buscar información en un sitio web, escribir un archivo en formato Word. Otras, más complejas: resolver bugs en Python, gestionar bases de datos, mantener coherencia en una cadena de decisiones. Para ejecutarlas, usaron un sistema llamado OpenHands, respaldado por modelos avanzados como Claude Sonnet 3.5, Gemini 2.0 y GPT-4o.

¿Cómo resultó el experimento?

Los resultados fueron una mezcla de asombro y frustración. El mejor agente, impulsado por Claude 3.5 Sonnet, logró completar apenas el 24% de las tareas. Y no porque fuera perezoso o poco sofisticado. Simplemente, hay instrucciones que aún no entiende.

Por ejemplo, una de las tareas requería guardar un archivo como answer.docx. Cualquier persona sabe que eso implica abrir Word o usar una herramienta compatible. Pero la IA lo interpretó como texto plano. Pequeños detalles que revelan que la IA todavía no tiene sentido común, falla en cuestiones muy simples.

“Los modelos de lenguaje fallan en cosas que para nosotros son naturales, como interpretar instrucciones implícitas o detectar convenciones culturales”, apuntó el investigador Boxuan Li, otro de los encargados del experimento. “Y a veces directamente hacen trampa”, remarcó. En una tarea, un agente debía contactar a un empleado. Como no lo encontraba en el sitio interno, optó por cambiar el nombre de un compañero cualquiera por el del objetivo para que el sistema le permitiera avanzar.

También hubo fallas más técnicas. Los agentes tuvieron problemas para leer correctamente páginas web, una tarea que requiere interpretar estructuras visuales o acceder al contenido a través del “árbol de accesibilidad” que usan los navegadores. OpenHands solo admite este método, más económico pero limitado. El reconocimiento de imágenes —más parecido a cómo lo haría un humano— aún está fuera de su alcance.

Y, sin embargo, hubo momentos brillantes. El mismo sistema, con respaldo de Gemini 2.5 Pro, completó uno de los proyectos más complejos del curso de base de datos de la universidad: navegar por un sitio privado, configurar un entorno local, modificar múltiples archivos fuente, compilar y testear. Lo hizo en 8 minutos y por apenas 2,41 dólares.

“Como era de esperar, los agentes de vanguardia actuales no resuelven la mayoría de las tareas, lo que sugiere que hay una gran brecha para que realicen de forma autónoma lo que haría un trabajador humano en un día laboral, incluso en un entorno de evaluación comparativa relativamente simplificado como el que aplicamos”, explicó Li.

La paradoja es evidente. Los agentes de IA pueden resolver tareas difíciles, pero fracasan en otras que un pasante resolvería en dos clics. Y aunque el 25% de efectividad pueda sonar bajo, marca un hito: nunca antes se había probado la IA en condiciones tan cercanas al trabajo real.

¿En qué tareas fallan?

El mayor valor del experimento, según los investigadores, no está en los éxitos, sino en los fracasos. “Queríamos entender por qué no pueden completar ciertas tareas. Eso es más útil que celebrar lo que ya hacen bien”, explicó Song.

Una de las principales conclusiones fue que los agentes de IA aún tienen serias limitaciones en tareas con alta carga social, como colaborar, escalar problemas o simplemente esperar una respuesta. En una tarea específica, se indicaba que si un compañero no respondía en 10 minutos, había que escalar al director de tecnología (CTO). Ningún agente lo hizo bien. Uno de ellos “supuso” que habían pasado los 10 minutos y actuó en consecuencia sin motivo aparente.

Según Li, este tipo de errores revela una fragilidad de fondo: “Los agentes todavía no son buenos en tareas a largo plazo, ni en seguir instrucciones condicionales con contexto temporal. Eso los hace poco confiables para delegar procesos completos sin supervisión humana”, expresó.

Otra gran debilidad es la interacción con interfaces diseñadas para personas. Muchos programas empresariales, sitios de gestión interna o formularios tienen reglas no escritas, flujos lógicos implícitos y estructuras visuales complejas. Todo eso sigue siendo un obstáculo para los modelos actuales. Sin acceso a imágenes o simulaciones realistas, su desempeño se frena.

También fallan en razonamiento matemático y cálculo avanzado, algo que limita su uso en áreas como finanzas, ingeniería o logística. Incluso cuando parecen entender, muchas veces improvisan respuestas para “salir del paso”, lo cual puede resultar peligrosamente persuasivo. “Los humanos, al enfrentarnos a problemas que no podemos resolver, podemos admitir honestamente nuestro fracaso. Sin embargo, los agentes pueden usar métodos torpes para fingir que lo resolvieron y luego dar el resultado con confianza”, remarcó Song.

Y esto no es solo un problema técnico. En un mundo donde la IA toma decisiones con impacto real —recomendaciones financieras, diagnósticos médicos, estrategias empresariales—, una respuesta errónea dicha con confianza puede ser mucho peor que un simple “no lo sé”.

“No creo que reemplacen puestos de trabajo en su totalidad, pero sin duda transformarán nuestra forma de trabajar. Son potentes y los seres humanos podemos aprovecharlos para aumentar la productividad, pero, al menos por ahora, no pueden reemplazar ningún puesto de trabajo por completo”, aseguró Li.

A la luz de los resultados, los investigadores insisten en que no estamos ni cerca de reemplazar trabajos completos. Lo que sí vislumbran es un futuro cercano de colaboración forzada, donde los humanos actúan como jefes, auditores o socios estratégicos de los agentes.

Fuente: Infobae

Inteligencia artificial Reemplazo Empresas