De Vibe Coding a Agentic Engineering: Lo que Karpathy no te cuenta (y la ciencia sí)

por | 30 abril, 2026

Andrej Karpathy, el investigador que acuño el termino vibe coding, volvio a generar revuelo con una afirmacion provocadora: los LLMs no son software mejorado — son un paradigma computacional completamente nuevo. Pero, que dice realmente la evidencia cientifica al respecto?

He realizado un analisis sistemico de sus ideas contra la literatura academica de los ultimos cinco anos. Aqui van los hallazgos clave.


La tesis central: Software 3.0

Karpathy propone una taxonomia donde:

  • Software 1.0: Escribir codigo linea por linea
  • Software 2.0: Entrenar redes neuronales con datos
  • Software 3.0: Programar con prompts en lenguaje natural

Veredicto cientifico: La distincion es util y pegadiza, pero no esta formalizada en la literatura academica. Lo que si esta confirmado: Brown et al. (2020) demostraron que los LLMs pueden aprender tareas nuevas solo con ejemplos en el prompt — esto si constituye un cambio de paradigma verificable.


Verificabilidad: la regla que nadie te dice

Aqui Karpathy toca algo crucial. Los LLMs automatizan mejor los dominios donde puedes verificar el resultado. Codigo que compila. Matematicas con respuesta correcta. Pruebas que pasan.

La investigacion de Varshney et al. (2023) lo confirma: la verificabilidad es condicion necesaria para automatizacion confiable. Zhang et al. (2024) van mas alla con metodos formales para certificar sistemas de IA.

El ejemplo perfecto del mismo Karpathy: un LLM puede refactorizar 100,000 lineas de codigo pero te recomienda caminar 50 metros a un autolavado. Por que? Porque el codigo tiene verificacion clara; el sentido comun fisico no.


La inteligencia «jagged» — no es hype

Karpathy describe los LLMs como poseedores de inteligencia dispareja — capaces de lo extraordinario en ciertos dominios mientras fallan en lo trivial. Esto tiene respaldo empirico.

Fu et al. (2024) documentaron capacidad heterogenea sistematica a traves de mas de 50 tareas. Han et al. (2024) encontraron comportamientos anonimos donde modelos fallan en inferencias logicas simples mientras superan benchmarks complejos.

Su analogia de «animales versus fantasmas» — inteligencias sin motivacion intrinseca, moldeadas solo por datos y funciones de recompensa — es filosoficamente provocativa pero no tiene validacion academica formal. Funciona como comunicacion efectiva, no como modelo analitico.


Agentic Engineering: cuando la calidad importa

Karpathy distingue entre vibe coding (elevar el piso para que todos puedan programar) y agentic engineering (preservar el techo de calidad profesional mientras se acelera el desarrollo).

Bhati et al. (2026) acaban de publicar evidencia empirica directa: los agentes de IA estan transformando el ciclo de desarrollo de software, pero requieren nuevos marcos de validacion de calidad y seguridad.


Lo que sigue siendo unicamente humano

Aqui viene la frase mas importante de Karpathy: «Puedes outsourcer tu pensamiento, pero no puedes outsourcer tu comprension.»

La investigacion lo respalda. Brynjolfsson y McAfee (2023) argumentan que la IA amplifica las habilidades humanas complementarias: juicio, creatividad, diseno. Liu et al. (2024) demostraron empiricamente que la supervision humana mejora consistentemente la calidad de outputs de LLMs.

Los errores de los agentes son reveladores: usar direcciones de email para correlacionar transacciones financieras en lugar de IDs de usuario persistentes. Estas son las brechas donde el juicio humano sigue siendo insustituible.


Conclusion

Las ideas de Karpathy son en gran medida consistentes con la literatura academica verificable. Donde carece de rigor formal — la taxonomia tripartita, las predicciones cuantitativas — funciona como provocacion intelectual valiosa.

El campo necesita mas dialogo entre practitioners de alto nivel como Karpathy y la comunidad academica, integrando perspicacia practica con rigor metodologico.


El documento academico completo con 20+ fuentes verificadas esta disponible en formato PDF. Analisis basado en revision sistematica de literatura en arXiv, IEEE, ACM y Google Scholar.

Categoría: AI