Modelos

OpenAI publica GeneBench-Pro: su benchmark de biología computacional deja a GPT-5.6 Sol en el 28,7%

30 de junio de 20267 minpor IAUtiles

OpenAI publica el 30 de junio GeneBench-Pro: 129 problemas de biología computacional (20-40 h de experto cada uno). GPT-5.6 Sol: 28,7% estándar, 31,5% Pro. Claude Opus 4.8: 16%. Preguntas representativas open-sourced. Mismo día que Claude Science. Sol en julio sobre Cerebras a 750 tok/s; API desde 5$/M tokens.

OpenAI ha publicado este 30 de junio de 2026 GeneBench-Pro, un benchmark de nivel investigación con 129 problemas diseñados para medir si un agente de IA puede tomar decisiones correctas sobre datos biológicos complejos —no solo responder preguntas de texto, sino ejecutar pipelines de análisis, interpretar resultados experimentales y elegir el siguiente paso metodológico. El modelo biológico de la familia GPT-5.6, GPT-5.6 Sol, resolvió solo el 28,7% de los problemas en modo estándar y el 31,5% en modo Pro. El anuncio coincide con el lanzamiento de Claude Science de Anthropic y llega cuatro días después de que Sol, Terra y Luna se presentaran en preview restringida a unas 20 empresas aprobadas por el gobierno de EE. UU.

Qué ha pasado exactamente

GeneBench-Pro no es un cuestionario de opción múltiple sobre biología molecular. Cada uno de los 129 problemas simula una tarea real de laboratorio o de bioinformática que, según OpenAI, requeriría entre 20 y 40 horas de trabajo de un experto humano y costaría varios miles de dólares en tiempo de investigador y cómputo. Los problemas abarcan predicción de estructuras, diseño de primers, análisis de vías metabólicas, interpretación de datos de secuenciación y modelado farmacológico —dominios donde un error metodológico invalida semanas de experimentación.

Los resultados que OpenAI publica son contundentes en ambas direcciones. GPT-5.6 Sol —el modelo especializado en ciencias de la vida de la familia GPT-5.6— alcanzó el 28,7% de aciertos en modo estándar y el 31,5% activando el modo Pro, una mejora de apenas 2,8 puntos por el acceso ampliado a herramientas y tiempo de razonamiento. Para contexto histórico: el GPT-5 original falló en menos del 5% de los problemas en la primera versión del benchmark —es decir, acertó en más del 95%—, lo que sugiere que GeneBench-Pro es sustancialmente más difícil que su predecesor o que los modelos actuales enfrentan tareas de complejidad distinta. Claude Opus 4.8 de Anthropic alcanzó el 16%, menos de la mitad que Sol pero sin ser un modelo etiquetado como biológico.

OpenAI ha open-sourced preguntas representativas del benchmark para que otros laboratorios puedan reproducir las evaluaciones. El calendario de producto enlaza con el anuncio del 26 de junio: GPT-5.6 Sol, Terra y Luna entraron en preview limitada a unas 20 empresas con aprobación del gobierno de EE. UU., en línea con las restricciones que la System Card de GPT-5.6 documentó tras la intervención de la Casa Blanca. Sol se lanzará en julio de 2026 sobre chips Cerebras con velocidad de hasta 750 tokens por segundo. Los precios de API quedan fijados en 5 dólares de entrada y 30 dólares de salida por millón de tokens para Sol, 2,50/15 dólares para Terra y 1/6 dólares para Luna.

Por qué importa

Los benchmarks de IA suelen medir capacidades que un modelo ya domina: traducción, código corto, razonamiento matemático con respuesta única. GeneBench-Pro mide algo distinto: la capacidad de un agente —no un chatbot— de navegar decisiones en cadena sobre datos biológicos ruidosos, donde cada paso incorrecto deriva en conclusiones falsas. Que Sol, el modelo más avanzado de OpenAI en ciencias de la vida, solo resuelva menos de un tercio de los problemas demuestra que la biología computacional sigue siendo un cuello de botella real, no un escaparate de marketing.

La comparación con la primera versión del test es especialmente reveladora. Si GPT-5 superaba el 95% en el benchmark anterior y Sol apenas roza el 30%, OpenAI ha endurecido drásticamente la dificultad —o ha cambiado la definición de "resolver" para exigir pipelines completos en lugar de respuestas parciales. En cualquier caso, el mensaje para el sector es que los modelos generalistas, incluso los restringidos por seguridad nacional, no sustituyen a un bioinformático con experiencia en un problema concreto.

El timing frente a Anthropic confirma que la biología computacional es el nuevo frente competitivo. El 30 de junio, el mismo día de GeneBench-Pro, Anthropic presentó Claude Science —un workbench con más de 60 skills para genómica, proteómica y análisis single-cell— mientras OpenAI publica un benchmark que expone las limitaciones de su propio modelo biológico. Es una jugada de transpareencia que obliga al mercado a comparar cifras: 28,7% de Sol frente a 16% de Opus 4.8, con la salvedad de que Anthropic aún no ha publicado resultados de sus modelos Mythos en GeneBench-Pro.

Qué significa en España

Para investigadores españoles en biología computacional —grupos del CNAG, el IRB Barcelona, el CNIO o el Instituto de Biomedicina de Valencia—, GeneBench-Pro ofrece un estándar reproducible: OpenAI ha liberado preguntas representativas que cualquier laboratorio puede ejecutar contra sus propios modelos o agentes. Un postdoc del CSIC que evalúe si ChatGPT o Claude pueden automatizar parte de su pipeline de RNA-seq ya no depende de demos de marketing; tiene un benchmark donde un problema equivale a 20-40 horas de trabajo humano y cuesta miles de dólares replicar. Eso cambia la conversación en reuniones de grupo: la pregunta pasa de "¿probamos la IA?" a "¿en qué porcentaje de tareas del 28,7% encaja nuestro caso?"

El acceso a GPT-5.6 Sol no está disponible para usuarios españoles al uso. La preview del 26 de junio se limitó a unas 20 empresas con aprobación del gobierno de EE. UU. —el mismo marco restrictivo que la System Card de GPT-5.6 documentó tras la intervención de la Casa Blanca. Cuando Sol llegue en julio vía API sobre Cerebras, los precios serán de 5 dólares por millón de tokens de entrada y 30 de salida —aproximadamente 4,60€/27,60€ al cambio—, muy por encima de modelos como GPT-4o o Claude Sonnet. Un laboratorio que procese un genoma completo con múltiples pasos de agente puede acumular facturas de API de cuatro cifras en euros sin resolver más del 30% de los problemas del benchmark.

La dimensión regulatoria no es menor. El AI Act europeo entra en vigor plena el 2 de agosto de 2026 —a 33 días del anuncio de GeneBench-Pro— y clasifica los sistemas de IA en sanidad e investigación biomédica como potencialmente de alto riesgo. Un hospital español o un centro del ISCIII que quiera desplegar agentes evaluados en GeneBench-Pro necesitará documentar no solo la precisión del 28,7%, sino qué ocurre con el 71,3% restante de casos donde el modelo falla. El benchmark de OpenAI, paradójicamente, da munición a los comités de ética para exigir supervisión humana obligatoria: si un experto tarda 30 horas por problema y la IA falla siete de cada diez, el ahorro de tiempo no justifica automatización sin revisión.

En el mapa institucional español, la oficina de OpenAI que abre en Madrid —con cuatro vacantes publicadas el mismo 30 de junio— es un centro comercial, no de I+D. GeneBench-Pro se desarrolló en San Francisco; los investigadores españoles no ganan acceso preferente a Sol por la proximidad geográfica. La alternativa local pasa por infraestructura soberana: el BSC opera MareNostrum 5 con 314 petaflops, y la gigafactoría de IA de Tarragona moviliza 719 millones de euros vía SETT. Ninguna de esas apuestas públicas incluye hoy un benchmark equivalente a GeneBench-Pro en español; los grupos que quieran evaluar agentes en biología computacional tendrán que usar las preguntas open-sourced de OpenAI en inglés o esperar iniciativas europeas como las que impulsa Mistral AI desde París.

Análisis

Publicar un benchmark donde tu propio modelo estrella alcanza solo el 28,7% es un gesto poco habitual en la industria de la IA, y hay que leerlo como estrategia, no como confesión. OpenAI necesitaba demostrar que GPT-5.6 Sol es genuinamente especializado —no un GPT-5 renombrado— y la forma más creíble es mostrar que falla en tareas que el GPT-5 original dominaba, porque el test ahora es más duro. El salto de >95% a <30% entre versiones del benchmark es la prueba de que GeneBench-Pro mide algo distinto: agentes que ejecutan decisiones encadenadas, no respuestas de una sola pasada.

Que Claude Opus 4.8 quede en 16% —casi la mitad que Sol— refuerza la narrativa de OpenAI en el vertical biológico, pero con matices. Opus no es un modelo etiquetado como ciencias de la vida; Anthropic aún no ha publicado resultados de Claude Fable 5 ni de Mythos en este benchmark. El mismo día, Anthropic lanzó Claude Science con 60 skills preconfigurados —una apuesta por herramientas especializadas en lugar de un modelo monolítico. La competencia no es Sol contra Opus; es Sol contra un workbench con trazabilidad de código y conexión HPC.

El riesgo para OpenAI es que el 28,7% se convierta en techo percibido. Si un investigador del CNAG prueba Sol en julio sobre Cerebras a 750 tokens por segundo y obtiene resultados coherentes con el benchmark, la conclusión lógica es que el 70% restante requiere supervisión humana —exactamente las 20-40 horas por problema que GeneBench-Pro documenta. La métrica a vigilar no es si Sol supera el 31,5% del modo Pro en la próxima versión, sino cuántos laboratorios independientes reproducen las preguntas open-sourced y publican resultados divergentes antes de septiembre de 2026. Si los números de OpenAI se confirman en el CNIO, el IRB o un grupo europeo, GeneBench-Pro se convierte en estándar; si no, será un benchmark de marketing que solo el laboratorio de San Francisco puede reproducir.

Herramientas relacionadas

ChatGPT — GPT-5.6 Sol no está en el plan gratuito ni en Plus; la ficha recoge precios en euros y qué modelos están disponibles hoy en España mientras Sol permanece en preview restringida hasta julio.
Claude — Opus 4.8 alcanzó el 16% en GeneBench-Pro; útil para comparar el rendimiento del modelo generalista de Anthropic frente al Sol biológico de OpenAI antes de elegir stack para análisis de datos.
Perplexity — cubre la fase de búsqueda bibliográfica que GeneBench-Pro no evalúa; relevante para investigadores que necesitan contrastar literatura antes de confiar en un agente para pipelines computacionales.

Fuentes

← Volver a noticias