METHODOLOGY · 4 de junio de 2026

Tokenmaxxing, o cuando la ley de Goodhart viene por la IA

Las empresas querían 'adopción de IA', así que midieron el proxy más fácil — el uso de tokens —, lo pusieron en una tabla de clasificación (leaderboard) y obtuvieron exactamente lo que midieron: gente quemando tokens para escalar en la tabla, no para hacer mejor trabajo. Es una ley de cincuenta años devorando una estrategia recién estrenada, y ahora sale cara dos veces: pagas por los tokens desperdiciados y envenenas la señal que querías. El arreglo también es viejo — mide resultados, no actividad.

En 2026, varias grandes tecnológicas empezaron a clasificar a sus propios empleados según cuántos tokens de IA usaban. Amazon construyó una tabla de clasificación (leaderboard) interna; los trabajadores respondieron corriendo tareas inútiles y de bajo valor todo el día para inflar sus puntajes — no porque el trabajo hiciera falta, sino porque la actividad movía el número. En Meta, un empleado construyó un dashboard llamado "Claudeonomics" que clasificaba a los ~85,000 trabajadores de la empresa por consumo de tokens; en una ventana de 30 días registró más de 60 billones (60 trillion) de tokens (ni Zuckerberg ni el CTO entraron en el top 250). La gente empezó a llamarlo tokenmaxxing, y es uno de los autogoles de gestión más limpios que he visto en años.

Esto es simplemente la ley de Goodhart, en un medidor más rápido

Lo que pasó aquí no es nuevo ni misterioso. Es un principio de cincuenta años llamado ley de Goodhart: cuando una medida se convierte en objetivo, deja de ser una buena medida. En el instante en que "tokens usados" pasó de ser un número que alguien miraba de reojo a un número por el que la gente era clasificada, dejó de medir productividad y empezó a medir algo completamente distinto — la capacidad humana de manipular una tabla de clasificación (leaderboard). Como lo planteó un análisis, la métrica ahora mide exactamente eso, y nada más.

¿Por qué empresas inteligentes cayeron de lleno en esto? Porque "adopción de IA" es lo que el directorio quería ver, y el uso es lo más fácil del mundo de contar. Los tokens son visibles, contables, dashboardeables. Si la IA realmente hizo el trabajo mejor es difícil de medir. Así que midieron el proxy fácil en lugar de la verdad difícil — y obtuvieron el proxy, maximizado. Dicho sin rodeos: cuando mides uso, obtienes desperdicio.

Hemos cometido exactamente este error desde siempre

Si esto te suena familiar, debería. Paga a los ingenieros por líneas de código y obtienes código inflado y relleno. Pon cuotas de commits y los desarrolladores parten un cambio en cinco fragmentos. Clasifica un call center por tiempo de atención y obtienes clientes despachados del teléfono sin que nada se resuelva. El tokenmaxxing es la versión retocada para la era de la IA del error de gestión más viejo que existe: recompensar la actividad porque es fácil de contar, y obtener actividad en lugar de resultados. No hay nada nuevo en esto, salvo que el medidor corre más rápido.

Salvo que ahora la métrica de vanidad también quema dinero

Esto es lo que hace que la versión con IA sea peor que las líneas de código. Una mala métrica solía solo desperdiciar esfuerzo. Esta literalmente quema efectivo — cada token manipulado es un token que pagaste, lo que no es parte menor de por qué el pánico por costos de 2026 se volvió tan ruidoso. Así que pagas dos veces: una por el cómputo desperdiciado, y otra en la señal corrompida. Compraste un número que no te dice nada sobre si la IA está ayudando, y lo pusiste en tu propia factura. Es una forma notable de gastar dinero — financiar la destrucción de tus propios datos.

El arreglo es la respuesta aburrida y correcta: mide resultados

La salida no es una métrica de uso más astuta. El uso es directamente lo equivocado de medir. Tienes que medir resultados — ¿se hizo realmente el trabajo?, ¿es bueno el resultado?, ¿se resolvió el problema del cliente? — que es más difícil de contar y mucho más difícil de manipular. Los datos lo respaldan: las organizaciones que conectaron la IA a resultados reales tuvieron casi cuatro veces más probabilidades de reportar crecimiento de ingresos impulsado por IA que las que seguían en pilotos — y el factor diferenciador explícitamente no fue quién tenía más uso.

Esta es la misma disciplina que sigo defendiendo con los modelos, apuntada a tu organización en su lugar. No juzgas a un agente por cuántas veces se ejecutó; lo juzgas por un conjunto held-out (de validación apartado) de resultados reales. La misma regla para las personas y los equipos: recompensa el resultado, no el conteo de tokens. Y hay un costo humano silencioso que un dashboard de uso jamás revelará — las encuestas encontraron que aproximadamente una cuarta parte de los trabajadores consideraría irse por ser presionada a usar IA de formas en las que no creía, mientras que solo una fracción ínfima de los empleadores notó resistencia alguna. La gente cumple visiblemente y resiste en silencio, y tu tabla de clasificación reporta alegremente el cumplimiento como éxito.

La conclusión

La IA no rompió tus métricas. Tomó el error de medición más viejo que existe y lo hizo más rápido y más caro. El uso nunca fue el objetivo — el mejor trabajo lo era. La regla no ha cambiado y es implacable: cualquier número que pongas en un dashboard, alguien lo optimizará, así que asegúrate muy bien de que ese número sea lo que realmente querías y no solo lo que era fácil de contar. Mide si el trabajo mejoró — o paga un dineral por ver una tabla de clasificación escalar mientras nada lo hace.

Comentarios

Aún no hay comentarios

Inicia sesión para unirte a la conversación.

Sé el primero en compartir una idea.