Modelos

Meituan revela LongCat-2.0: 59,5% en SWE-bench Pro tras semanas como «Owl Alpha» anónimo en OpenRouter

4 de julio de 20267 minpor IAUtiles

29 jun 2026: Meituan revela LongCat-2.0 bajo licencia MIT —MoE de 1,6 billones de parámetros, 48.000 M activos por token, 1M de contexto— entrenado en 50.000 chips ASIC chinos sin Nvidia. El mismo modelo circulaba en OpenRouter como «Owl Alpha». 59,5% SWE-bench Pro (vs 58,6% GPT-5.5), 70,8% Terminal-Bench.

Meituan —la mayor plataforma de delivery y servicios locales de China— reveló el 29 de junio de 2026 que LongCat-2.0, su modelo Mixture-of-Experts de 1,6 billones de parámetros con licencia MIT, es el mismo que llevaba semanas circulando de forma anónima en OpenRouter bajo el nombre «Owl Alpha». Esta cobertura se publica el 4 de julio. El anuncio llega con cifras de benchmark que superan a GPT-5.5 en codificación de software real y con un dato geopolítico que Pekín subraya con intención: el entrenamiento se completó íntegramente en 50.000 chips ASIC chinos domésticos, sin usar hardware Nvidia sujeto a controles de exportación de Washington.

Qué ha pasado exactamente

LongCat-2.0 es un modelo Mixture-of-Experts (MoE) con 1,6 billones de parámetros totales, de los cuales activa una media de 48.000 millones por token —el rango oscila entre 33.000 y 56.000 millones según la complejidad de la consulta—. La ventana de contexto nativa alcanza 1 millón de tokens, comparable a GLM-5.2 de Z.ai o Claude Sonnet 5 de Anthropic. Meituan publicó los pesos bajo licencia MIT en Hugging Face y GitHub, y el modelo ya está disponible para inferencia vía OpenRouter y APIs de terceros que lo alojan.

En benchmarks de codificación agéntica, LongCat-2.0 alcanza el 59,5% en SWE-bench Pro —por encima del 58,6% de GPT-5.5— y el 70,8% en Terminal-Bench. Esas cifras sitúan al modelo en el tramo superior del ecosistema open-weight de julio de 2026, junto a GLM-5.2 (81,0% en Terminal-Bench 2.1) y DeepSeek V4-Pro, aunque con un perfil distinto: LongCat-2.0 destaca especialmente en tareas de ingeniería de software con repositorios completos, donde SWE-bench Pro mide resolución de issues reales de código abierto.

El componente más inusual del lanzamiento no es técnico sino operativo. Durante semanas antes del 29 de junio, desarrolladores de todo el mundo usaron el modelo en OpenRouter como «Owl Alpha» sin saber su procedencia. Meituan confirmó que fue una decisión deliberada: recoger feedback de producción real —latencia, fallos de formato, casos de uso inesperados— sin asumir el riesgo reputacional de aparecer como un modelo chino en un mercado donde las restricciones de exportación de EE.UU. y las campañas de destilación contra laboratorios como Anthropic han polarizado la adopción enterprise. El experimento funcionó: Owl Alpha figuraba entre los modelos más consultados de la plataforma antes de la revelación.

En el plano de infraestructura, Meituan declaró que LongCat-2.0 se entrenó íntegramente en un clúster de 50.000 chips ASIC chinos domésticos, sin emplear GPUs Nvidia H100 ni A100 sujetas a las restricciones de exportación impuestas por Washington desde 2022. China presenta el hito como demostración de que su ecosistema de silicio propio puede sostener un entrenamiento de escala frontera sin depender del suministro estadounidense. Para autohospedar el modelo, Meituan advierte que se requieren múltiples nodos GPU de alto ancho de banda por los 48.000 millones de parámetros activos por inferencia; la vía práctica para la mayoría de equipos sigue siendo consumirlo vía API o OpenRouter.

Por qué importa

LongCat-2.0 rompe dos narrativas simultáneamente. La primera es técnica: un laboratorio vinculado al comercio local chino —no a un hiperescalador de nube— publica un modelo MIT que supera a GPT-5.5 en SWE-bench Pro con una diferencia de 0,9 puntos porcentuales, medida en tareas de reparación de código real. La segunda es geopolítica: si el entrenamiento en 50.000 ASIC domésticos se confirma y escala, el argumento de que China no puede entrenar modelos de frontera sin chips Nvidia pierde fuerza justo cuando Washington endurece controles sobre Fable 5, Mythos 5 y los accesos a Claude vía proxies.

La estrategia de Owl Alpha en OpenRouter es igual de relevante. En lugar de un paper académico o un benchmark controlado, Meituan obtuvo semanas de telemetría de desarrolladores reales —incluidos equipos europeos y estadounidenses— antes de revelar la procedencia china del modelo. Eso contrasta con el patrón de lista blanca que OpenAI aplica a GPT-5.6 Sol (~20 empresas aprobadas) o con el apagón de 18 días que sufrieron usuarios de Fable 5 entre el 12 y el 30 de junio. Un modelo que ya estaba en producción anónima no puede ser «desconectado» retroactivamente por una orden gubernamental que no conocía su existencia.

La licencia MIT elimina restricciones regionales, permite fine-tuning y redistribución sin royalties, y coloca a LongCat-2.0 en la misma categoría legal que GLM-5.2 y DeepSeek V4-Pro. Para equipos que buscan capacidad de codificación cercana a la frontera sin depender de modelos de origen estadounidense —o sin asumir el riesgo de que Washington corte el acceso de la noche a la mañana—, julio de 2026 ofrece por primera vez tres alternativas open-weight creíbles con benchmarks por encima del 58% en SWE-bench Pro. La barrera ya no es la licencia ni el rendimiento en papel; es la infraestructura de inferencia y la confianza en la cadena de suministro del proveedor que aloja el modelo.

Qué significa en España

Para una pyme española de desarrollo —una consultora de 15 ingenieros en Barcelona, una startup de fintech en Madrid o un integrador de Valencia—, LongCat-2.0 abre una vía concreta de evaluar alternativas de IA sin dependencia exclusiva de hiperescaladores estadounidenses. Hoy muchos equipos pagan Claude Pro a 18-19 €/mes por ingeniero o consumen API de OpenAI a 2-15 $/millón de tokens; tras el apagón de Fable 5 del 12 al 30 de junio, la pregunta ya no es solo el precio sino la continuidad. LongCat-2.0 vía OpenRouter o un proveedor que lo aloje permite probar un modelo con 59,5% en SWE-bench Pro sin comprometer un contrato anual con Anthropic o OpenAI, y con facturación en dólares que sigue siendo deducible con IVA en el modelo 130 para autónomos españoles.

La soberanía de datos es el segundo eje. Si consumes LongCat-2.0 vía la API de Meituan o de un agregador estadounidense como OpenRouter, tus prompts —código fuente, documentación interna, tickets de clientes— transitan por infraestructura sujeta a jurisdicciones fuera de la UE. Para una empresa que maneja datos de salud, finanzas o administración pública en España, eso no es un detalle técnico: es una decisión de cumplimiento del RGPD. La licencia MIT permite descargar los pesos y desplegarlos en un proveedor europeo —OVH, Hetzner o un datacenter español—, pero los 48.000 millones de parámetros activos exigen un clúster de varios nodos con alto ancho de banda inter-GPU; el coste de infraestructura supera con creces lo que una micropyme puede asumir sin un proyecto financiado. La vía API es práctica; la vía autoalojada es soberana pero cara.

En cuanto al AI Act europeo —cuya aplicación plena de sistemas de alto riesgo entra el 2 de agosto de 2026—, LongCat-2.0 encaja en un escenario favorable para modelos de pesos abiertos: la licencia MIT obliga a transparencia sobre los pesos descargables, y el proveedor que despliega el modelo asume las obligaciones de documentación de riesgo, no el laboratorio que publicó los parámetros. Para una empresa española que integre LongCat-2.0 en un producto orientado a usuarios finales —no solo en un flujo interno de desarrollo—, deberá evaluar si el sistema cae en categoría de alto riesgo según el anexo del reglamento y preparar la documentación correspondiente antes de agosto. El hecho de que el modelo sea open-weight no exime del AI Act; lo facilita en transparencia, pero no en evaluación de impacto si el caso de uso es sensible.

Los desarrolladores españoles que ya usaron Owl Alpha en OpenRouter deberían revisar tres puntos antes de seguir o ampliar el uso tras la revelación del 29 de junio. Primero: confirmar qué proveedor aloja la inferencia —OpenRouter enruta a backends distintos y el precio por millón de tokens varía según el host— y si ese proveedor factura con IVA intracomunitario o como importación de servicios digitales. Segundo: auditar si el código que enviaste durante las semanas anónimas incluía propiedad intelectual restringida; Meituan recogió telemetría de producción deliberadamente, y tu política de datos interna debería reflejarlo. Tercero: configurar un fallback multi-proveedor en herramientas como Cursor o scripts propios —si OpenRouter cambia el routing o Meituan ajusta condiciones de uso, no repetir la dependencia única que dejó a equipos españoles sin Fable 5 durante 18 días en junio.

Análisis

El lanzamiento de LongCat-2.0 es más astuto que espectacular. Meituan no compitió en un comunicado de prensa contra GPT-5.5; dejó que Owl Alpha demostrara su valor en producción durante semanas y solo entonces reclamó la autoría. Eso le dio datos que ningún benchmark sintético reproduce —y le permitió evitar el estigma geopolítico inicial. El riesgo es la confianza: un laboratorio que ocultó deliberadamente la procedencia de su modelo para recoger feedback real no inspira la misma transparencia que Z.ai con GLM-5.2 o DeepSeek con V4-Pro, que publicaron con nombre y procedencia desde el primer día.

El dato de los 50.000 ASIC chinos es el que más moverá el tablero si se verifica de forma independiente. Washington ha construido su política de restricciones de exportación sobre la premisa de que sin H100 no hay entrenamiento de frontera; si Meituan demuestra lo contrario con un modelo que supera a GPT-5.5 en SWE-bench Pro, la presión para ampliar controles a software, pesos abiertos o acceso a APIs chinas —como ya sugiere el informe del Financial Times citado por Investing.com sobre Anthropic persiguiendo «lagunas» de acceso a Claude— aumentará. Para el desarrollador individual, eso es ruido geopolítico; para un CTO que firma contratos de tres años, es riesgo contractual medible.

Si Meituan publica antes de septiembre una evaluación de terceros que confirme el entrenamiento en ASIC domésticos sin GPUs Nvidia, LongCat-2.0 dejará de ser una curiosidad de OpenRouter y pasará a ser la referencia que citan los informes de soberanía tecnológica de la UE. Si, en cambio, el dato de infraestructura no se audita y el modelo pierde tracción frente a GLM-5.2 o DeepSeek V4-Pro en los próximos benchmarks de julio, Owl Alpha habrá sido un experimento de marketing brillante pero efímero. Mientras tanto, los 59,5% en SWE-bench Pro son reales hoy —y eso basta para que cualquier equipo español de ingeniería los pruebe en un caso de uso propio antes de renovar presupuesto con un único hiperescalador.

Herramientas relacionadas

DeepSeek — V4-Pro compite en el mismo segmento open-weight de codificación (0,435 $/M tokens de entrada); útil para comparar coste de inferencia y rendimiento en Terminal-Bench frente a LongCat-2.0 antes de elegir proveedor API.
Cursor — permite configurar modelos vía OpenRouter o API propia; relevante para equipos españoles que usaron Owl Alpha anónimamente y quieran mantener LongCat-2.0 como opción con fallback a Claude Sonnet 5 o DeepSeek.
Claude — GPT-5.5 y Fable 5 siguen siendo referencia en el segmento cerrado; la ficha documenta precios en euros y el riesgo de interrupción gubernamental que LongCat-2.0 MIT pretende evitar.
ChatGPT — GPT-5.5 marca 58,6% en SWE-bench Pro, por debajo de LongCat-2.0; la ficha recoge precios API y planes en euros para contrastar el coste de un hiperescalador cerrado frente a un modelo MIT accesible vía OpenRouter.

Fuentes

← Volver a noticias