SubQ: El LLM que Procesa 12 Millones de Tokens sin Morir en el Intento

Financiado por $29M de SoftBank, con una ronda semilla que incluyó inversores de Anthropic y OpenAI. SubQ promete ser el primer modelo de lenguaje con atención realmente subcuadrática. Esto es lo que sabemos — y lo que no.

El 5 de mayo de 2026, una empresa que no existía en el radar de nadie hasta ese día publicó dos artículos en su blog y anunció que había construido el primer LLM completamente subcuadrático del mundo. Se llama SubQ, viene de Subquadratic Inc., y según sus números, puede procesar contextos de 12 millones de tokens con un costo computacional que escala linealmente, no cuadráticamente.

Si esto es real, cambia todo. Si no lo es, es otro caso de marketing sobre ingeniería.

Vamos a separar los hechos del ruido.

El Problema que Nadie Quiere Admitir de los LLMs

Los modelos de lenguaje modernos — GPT-4o, Claude 3.5, Gemini — todos comparten una herencia arquitectónica incómoda: el mecanismo de atención que alimenta su capacidad de razonar sobre texto fue diseñado en 2017 y escala como O(n²). Eso significa que si duplicas la longitud del contexto, el costo computacional se cuadruplica. Si lo triplicas, se multiplica por nueve.

El resultado práctico: ventanas de contexto de 200K tokens son económicamente viables. 1M tokens es ya un lujo. 12M tokens con atención densa sería simplemente prohibitivo.

SubQ dice haber resuelto esto desde la raíz.

¿Qué Hace Diferente a SubQ? SSA: Split-Sparse Attention

La arquitectura de SubQ se llama SSA (Split-Sparse Attention) — atención dispersa partida.

La idea central es elegante: en lugar de comparar cada token con cada token (lo que genera n²), SubQ usa un mecanismo de selección dependiente del contenido que decide dinámicamente a qué tokens atender para cada query. La atención se calcula solo sobre las posiciones seleccionadas, no sobre toda la secuencia.

Esto produce tres propiedades fundamentales:

Escala lineal en compute y memoria: el costo crece con las posiciones seleccionadas, no con la secuencia completa
Enrutamiento basado en contenido: decide dónde atender según significado, no según posición
Recuperación dispersa: a diferencia de modelos comprimidos, SSA preserva la capacidad de recuperar información específica de cualquier posición arbitraria

Según los benchmarks declarados por la empresa, esto se traduce en un speedup de 62.5× en FLOPs de atención a 1M tokens comparado con atención densa estándar.

Los Números: ¿Cómo le Va en los Benchmarks?

SubQ reportó los siguientes resultados en su modelo SubQ 1M-Preview (mayo 2026):

Benchmark	SubQ 1M-Preview	Competidores
SWE-Bench Verified	81.8%	Opus 4.6: 80.8%, Gemini 3.1 Pro: 80.6%, Opus 4.7: 87.6%
RULER @ 128K	95.0%	Opus 4.6: 94.8%
MRCR v2 (8-needle, 1M)	65.9%	Opus 4.6: 78.3%, GPT 5.5: 74.0%, Gemini 3.1 Pro: 26.3%

⚠️ Importante: Opus 4.6, Opus 4.7 y GPT-5.5 son versiones internas o hipotéticas, no lanzadas públicamente. Trata estas comparaciones con cautela.

En SWE-Bench (resolución de issues reales de GitHub), SubQ supera a Opus 4.6 y Gemini 3.1 Pro. En RULER a 128K tokens, compite casi igualado con Opus 4.6. En MRCR (recuperación de múltiples needles en contexto largo), Gemini 3.1 Pro tiene un desempeño particularmente bajo (26.3%) mientras SubQ alcanza 65.9%.

Por Qué Esto Cambia el Juego para Coding Agents

Si usas Claude Code, Cursor o Copilot en proyectos grandes, conoces el problema: el contexto se llena. El modelo empieza a olvidar lo que leyó al principio del archivo. Refactorizaciones que cruzan múltiples módulos se vuelven riesgosas porque el modelo no tiene acceso simultáneo a todo el código.

Con una ventana de 12M tokens, SubQ propone algo radical: cargar una base de código empresarial completa — repositorio, historial de git, Issues, documentación — en una sola ventana de contexto.

Los casos de uso que la propia empresa describe:

Análisis de bases de código empresariales completas sin fragmentación
Documentación legal y contractual extensas en una sola pasada
Investigación científica sistemática procesando el estado del arte de un campo
Agentes de codificación que trabajan sobre repositorios enteros sin truncamiento

Si los benchmarks se validan, esto no es incremental. Es un cambio de paradigma en cómo se usan los coding agents.

¿Por Qué Deberías Ser Cauteloso?

No todo es straightforward. Hay cuatro razones para no comprar el narrativo completo todavía:

1. Ausencia de peer review. Los resultados no han sido publicados en ninguna venue académica o técnica con revisión por pares. Son números declarados por la empresa que hace la afirmación.

2. Third-party validation sin identificar. La empresa afirma que sus resultados fueron «third-party validated» pero no dice quién, cómo, ni con qué metodología.

3. Modelos de comparación inexistentes. Las comparaciones contra Opus 4.7 y GPT-5.5 incluyen modelos que no existen públicamente. No podemos verificar esas líneas base.

4. Overfitting a benchmarks. SWE-Bench, RULER y MRCR son los únicos benchmarks reportados. No sabemos cómo le va en otros benchmarks que la empresa decidió no publicar.

La pregunta no es si SubQ es prometedor. La pregunta es si las afirmaciones coinciden con la realidad cuando otros las verifican.

El Panorama Competitivo

SubQ no está solo en intentar resolver la atención cuadrática. El espacio está activo:

Google DeepMind sigue iterando sobre la arquitectura Transformer con Gemini
Mistral continúa expandiendo su línea de modelos
DeepSeek publicó NSA (Native Sparse Attention), una aproximación diferente que desplaza el costo cuadrático hacia un indexador que también opera en O(n²)
State Space Models (Mamba, etc.) ofrecen complejidad O(n) por construcción pero con compromisos en recuperación de información específica

Lo que distingue a SubQ, si sus afirmaciones son correctas, es haber demostrado atención exactamente calculada sobre subconjuntos seleccionados, sin aproximación, sin pérdida teórica de calidad por compresión.

Es una afirmación fuerte. Necesita evidencia fuerte. Y hasta ahora, la evidencia viene solo de ellos.

¿Qué Viene Después?

La empresa tiene tres productos en beta privada: SubQ API (contexto de 12M tokens), SubQ Code (agentes de codificación) y SubQ Search (búsqueda en contexto largo).

La financiación de $29M en ronda semilla — con inversores que incluyen capital de SoftBank Vision Fund y JAM Fund — sugiere que alguien con acceso a información privilegiada vio algo que justificó la apuesta.

Pero en IA, los comunicados de prensa no son papers. Las promesas no son productos. Los benchmarks declarados no son reproducibilidad.

SubQ podría ser el avance que cambia las reglas del juego para coding agents. O podría ser otra empresa con un buen pitch y números cherry-picked.

Lo sabremos cuando la comunidad independiente lo evalúe.

Hasta entonces: atento, pero cauteloso.