De un experimento universitario a un 'unicornio'

En 2023, unos investigadores de la Universidad de Berkeley lanzaron Chatbot Arena, una página donde cualquiera podía comparar las respuestas de dos modelos de inteligencia artificial y votar cuál le parecía mejor. Aquel proyecto abierto se ha convertido en Arena (antes LMArena), una empresa que en enero de 2026 cerró una ronda de financiación de 150 millones de dólares con una valoración de 1.700 millones, según SiliconANGLE. Sumada a una ronda anterior de 100 millones, ha levantado en torno a 250 millones y se ha convertido en un unicornio en cuestión de meses.

Cómo funciona

El mecanismo es sencillo y ahí reside su fuerza: el usuario escribe una pregunta, dos modelos responden sin que se sepa cuál es cuál, y la persona elige la mejor respuesta. Con esos votos —millones de ellos— Arena construye una clasificación usando un sistema de puntuación parecido al Elo del ajedrez: cada modelo sube o baja según gane o pierda esos duelos. El resultado es un ranking que se ha convertido en la vara de medir oficiosa de la industria: una buena posición influye en la reputación, en los lanzamientos y hasta en la captación de inversión.

El negocio y sus dudas

¿Cómo se gana dinero con un ranking? Arena lanzó en 2025 un servicio comercial, AI Evaluations, que vende a los laboratorios análisis detallados del rendimiento de sus modelos, como explica TechCrunch. Y ahí surge la controversia: el árbitro que decide qué IA es mejor es, a la vez, un negocio financiado en parte por las propias empresas a las que evalúa.

La independencia, en cuestión

Los críticos advierten de los posibles conflictos de interés y de la falta de transparencia en la metodología, y señalan que los laboratorios pueden acabar optimizando sus modelos para puntuar alto en Arena más que para ser realmente mejores. Sus defensores replican que ningún sistema de evaluación es perfecto y que el voto masivo de usuarios reales es, al menos, más representativo que muchas pruebas de laboratorio. El debate de fondo es relevante: cuando una sola clasificación influye tanto en todo un sector, su credibilidad importa tanto como su valoración de mercado.