Futuro de la IA: Los LLMs Están Obsoletos Según Yann LeCun
Futuro de la IA: Los LLMs Están Obsoletos Según Yann LeCun
Por Dr. Juan I. Barrios Arce * Fecha: 23 de octubre, 2025 Lectura: 15 minutos | Dirigido a estudiantes, entusiastas de la IA, Profesionales en Informática, Profesores Universitarios

Mientras empresas tecnológicas invierten decenas de miles de millones de dólares en modelos de lenguaje cada vez más grandes, una de las voces más autorizadas del futuro de la IA lanza una advertencia que sacude los cimientos de la industria: los Modelos de Lenguaje de Gran Escala (LLMs, como chat GPT ) representan un callejón sin salida evolutivo que amenaza miles de millones en inversiones empresariales mal dirigidas.
Yann LeCun, científico jefe de IA en Meta, ganador del Premio Turing 2018 y reconocido como uno de los «padrinos de la inteligencia artificial», ha intensificado su crítica hacia la arquitectura dominante que está consumiendo presupuestos de I+D empresarial. En su reciente participación en la conferencia GTC 2025 de NVIDIA, junto a Bill Dally, científico jefe de la compañía, LeCun no dejó lugar a dudas: «Ya no estoy tan interesado en los LLMs. Son algo así como lo último de ese ciclo».
Esta declaración, lejos de ser casual, representa un llamado urgente a reorientar décadas de investigación y billones de dólares de inversión corporativa. Para los CEOs y directores de tecnología, el mensaje es claro: el futuro de la IA no se construirá sobre los cimientos de los LLMs actuales. Las empresas que reconozcan esta transición temprano ganarán ventaja competitiva decisiva en los próximos 3-5 años.
El Problema Fundamental : Aprender del Texto no es Comprender el Mundo
Para entender el futuro de la IA y por qué debería importarle a su organización, considere esta métrica devastadora: los LLMs necesitarían aproximadamente 400,000 años de lectura continua para alcanzar capacidades equivalentes a las de un niño de cuatro años. En contraste, ese mismo niño aprende más sobre física, causa-efecto y el mundo real observando durante apenas 16,000 horas.
La crítica de LeCun se fundamenta en una observación técnica con profundas implicaciones de negocio: los LLMs aprenden del lenguaje, pero el lenguaje es una representación empobrecida de la realidad. Como explica LeCun, «el lenguaje resulta ser relativamente simple porque tiene fuertes propiedades estadísticas. Es un espacio discreto de baja dimensionalidad que básicamente es una versión serializada de nuestros pensamientos». Esta simplicidad, que facilita el procesamiento lingüístico, constituye precisamente su limitación fundamental para construir el futuro de la IA empresarial.
El Costo Oculto de la Arquitectura Autorregresiva
Los LLMs actuales operan mediante predicción autorregresiva: calculan la probabilidad de la siguiente palabra basándose en las palabras anteriores. Este mecanismo conduce a una divergencia exponencial por acumulación de errores en cascada, expresada matemáticamente como P(correcto) = (1-e)^n, donde cada predicción multiplica el error.
Implicación empresarial directa: Cada decisión que su LLM toma basándose en su decisión anterior acumula error. Para tareas que requieren cadenas largas de razonamiento —como planificación estratégica, análisis financiero complejo o diagnósticos médicos— la precisión se deteriora exponencialmente. LeCun llama a esta arquitectura «condenada al fracaso» para aplicaciones empresariales críticas.
El Marco Teórico que Define el Futuro de la IA: Sistemas 1 y 2 en su Organización
LeCun recurre a la teoría del psicólogo y premio Nobel Daniel Kahneman (autor de «Pensar rápido, pensar despacio») para distinguir dos tipos de inteligencia con implicaciones directas para su estrategia de IA:
Sistema 1: Rápido, asociativo, automático — esto es lo que hacen los LLMs actuales (chat GPT por ejemplo ) . Útil para:
- Respuestas inmediatas en atención al cliente
- Generación rápida de borradores
- Clasificación y etiquetado de datos
- Tareas repetitivas de bajo riesgo
Sistema 2: Lento, analítico, planificador — hacia donde debe tender el futuro de la IA empresarial. Esencial para:
- Planificación estratégica
- Análisis financiero complejo
- Toma de decisiones de alto impacto
- Resolución de problemas novedosos
- Optimización de cadenas de suministro
Los modelos actuales, por más sofisticados que parezcan, permanecen atrapados en el Sistema 1. Su empresa puede estar usando tecnología de $100 millones para hacer trabajo que requiere solo pensamiento rápido, mientras que las decisiones críticas que requieren Sistema 2 siguen sin automatización confiable.

La Paradoja de la Inteligencia Artificial Actual
La paradoja es sorprendente y debería preocupar a cualquier líder empresarial: tenemos sistemas lingüísticos que pueden aprobar el examen de abogacía, resolver ecuaciones complejas y calcular integrales, pero carecemos de robots domésticos funcionales.
Un gato doméstico posee capacidades de navegación espacial, comprensión física y planificación motora que superan ampliamente las de cualquier LLM actual. Si su estrategia de automatización requiere interacción con el mundo físico —manufactura, logística, robótica— los LLMs actuales no son la solución.
Esta asimetría revela que el futuro de la IA no reside en la manipulación simbólica del lenguaje, sino en la comprensión multimodal del mundo físico. Para sectores como manufactura, logística, atención médica y retail con presencia física, esta distinción es crucial.
Inteligencia de Máquina Avanzada (AMI): El Futuro de la IA que Transformará su Industria
Decisión estratégica crítica para CEOs: LeCun propone abandonar el término «Inteligencia Artificial General» (AGI), que considera conceptualmente erróneo y que ha estado guiando inversiones empresariales hacia objetivos inalcanzables. «Odio ese término», declaró en Columbia University. «La inteligencia humana no es generalizada en absoluto. Los humanos están altamente especializados. Todos los problemas que podemos concebir o imaginar son problemas que podemos concebir o imaginar».
En su lugar, propone el concepto de Inteligencia de Máquina Avanzada (AMI, por sus siglas en inglés), reconociendo que la inteligencia siempre está adaptada a contextos específicos. Este cambio terminológico no es semántico: redefinir el objetivo de AGI a AMI significa redirigir su inversión de I+D hacia sistemas especializados y alcanzables en lugar de perseguir quimeras de «inteligencia general».

¿Por Qué AMI Representa el Verdadero Futuro de la IA Empresarial?
- Especialización sobre generalización: AMI reconoce que su empresa no necesita IA «general» —necesita IA altamente especializada en sus procesos, industria y desafíos específicos.
- Objetivos alcanzables: Mientras AGI permanece como meta indefinida, AMI establece hitos medibles: sistemas que comprenden contextos físicos, mantienen memoria persistente, razonan y planifican dentro de dominios específicos.
- ROI demostrable: En lugar de esperar décadas por AGI hipotética, AMI ofrece capacidades implementables en 3-5 años con retorno de inversión cuantificable.
JEPA: La Arquitectura que Reemplazará a los Transformers
El corazón de la propuesta de LeCun es la Arquitectura Predictiva de Incrustación Conjunta (JEPA, Joint Embedding Predictive Architecture). A diferencia de los modelos generativos que intentan predecir cada píxel, JEPA opera en un espacio de representación abstracto, prediciendo características esenciales mientras descarta información impredecible o irrelevante.
La arquitectura JEPA consta de tres componentes fundamentales:
- Codificadores duales: Transforman pares de entradas relacionadas (por ejemplo, fotogramas secuenciales de video) en representaciones abstractas que capturan solo características esenciales, eliminando detalles irrelevantes.
- Módulo predictor: Entrenado para predecir la representación abstracta del estado futuro basándose en el estado actual, sin necesidad de reconstruir píxeles individuales.
- Variables latentes: Permiten que el sistema maneje la incertidumbre inherente en las predicciones del mundo real, crucial para representar la naturaleza estocástica del entorno físico.
La meta de JEPA es entrenar al predictor para que prediga con precisión las representaciones de partes ocultas de la imagen a partir del contexto visible, permitiendo que el modelo aprenda representaciones visuales poderosas sin depender de etiquetas explícitas.
V-JEPA: La Demostración Práctica
Meta ha materializado estas ideas en V-JEPA (Video Joint Embedding Predictive Architecture), cuyas capacidades resultan impresionantes. Este modelo aprende prediciendo regiones espacio-temporales enmascaradas en un espacio latente aprendido, y no fue entrenado para comprender un tipo específico de acción en particular.
El predictor en JEPA funciona como un modelo físico temprano del mundo: no necesitas ver todo lo que está sucediendo en el fotograma, y puede decirte conceptualmente qué está ocurriendo allí. Tras ver solo 16 fotogramas de video, V-JEPA puede detectar eventos físicamente imposibles, demostrando una comprensión rudimentaria de las leyes físicas.
V-JEPA logró 82.1% de precisión en Kinetics-400 y 71.2% en Something-Something-v2, superando a los mejores modelos de video anteriores por +4 y +10 puntos respectivamente. Más significativamente, este desempeño se alcanzó usando solo el modelo congelado (frozen evaluation), sin necesidad de reentrenar para tareas específicas.
V-JEPA 2, la evolución más reciente, logra comprensión de movimiento de vanguardia con 77.3% de precisión top-1 en Something-Something v2 y rendimiento récord en anticipación de acciones humanas con 39.7 recall-at-5 en Epic-Kitchens-100, superando modelos específicos previos.
La Arquitectura Cognitiva Completa: Más Allá de la Percepción
El documento técnico de LeCun «A Path Towards Autonomous Machine Intelligence» (2022) describe una arquitectura cognitiva modular completamente diferenciable que integra múltiples componentes:
1. Módulo de Configuración: Ejerce control ejecutivo, coordinando las actividades de otros módulos, análogo a funciones ejecutivas de la corteza prefrontal.
2. Módulo de Percepción: Utiliza entradas sensoriales para estimar el estado actual del mundo, más allá del texto.
3. Modelo del Mundo: Constituye la pieza arquitectónica más compleja. Su papel es doble: estimar información faltante sobre el estado del mundo no proporcionada por la percepción, y predecir estados futuros plausibles del mundo.
4. Módulo de Costo: Computa una única salida escalar llamada «energía» que mide el nivel de incomodidad del agente. Está compuesto por dos submódulos: el costo intrínseco (inmutable, no entrenable, que computa la energía inmediata del estado actual como dolor, placer, hambre), y el crítico, un módulo entrenable que predice valores futuros del costo intrínseco.
5. Módulo Actor: Encuentra secuencias de acciones óptimas que minimizan la energía futura a través de procedimientos de optimización o búsqueda.
6. Memoria a Corto y Largo Plazo: Almacena información relevante sobre estados pasados, actuales y futuros del mundo, así como el valor correspondiente del costo intrínseco.
Modelos Basados en Energía y Variables Latentes
Una innovación técnica crucial es el uso de Modelos Basados en Energía (EBMs) combinados con Variables Latentes. Esta combinación permite a H-JEPA (Hierarchical JEPA) capturar las dependencias complejas entre entradas relacionadas mientras maneja eficientemente la incertidumbre.
Los EBMs no calculan probabilidades explícitas, sino que asignan «energías» bajas a configuraciones compatibles con los datos y altas a configuraciones improbables. Este enfoque es computacionalmente más tratable en espacios de alta dimensión que los modelos probabilísticos tradicionales.
Hasta la fecha, solo se usaban métodos de contracción para entrenar JEPA, que no funcionan para modelos de alta dimensionalidad. Pero el trabajo de LeCun sobre VICReg (Variance-Invariance-Covariance Regularization) hace posible entrenar modelos de alta dimensión usando métodos regularizados.
Aprendizaje Auto-Supervisado: La Clave de la Eficiencia
V-JEPA adopta un enfoque de aprendizaje auto-supervisado, siendo pre-entrenado completamente con datos sin etiquetar. Las etiquetas solo se usan para adaptar el modelo a una tarea particular después del pre-entrenamiento. Esta arquitectura demuestra ser más eficiente que modelos anteriores tanto en términos del número de ejemplos etiquetados necesarios como de la cantidad total de esfuerzo invertido en aprender incluso los datos sin etiquetar.
La eficiencia del aprendizaje visual comparada con el aprendizaje lingüístico es asombrosa. Un niño de cuatro años procesa una cantidad equivalente de datos a través de la visión en solo 16,000 horas, demostrando la inmensa eficiencia del aprendizaje visual. Los sistemas futuros deben aprovechar esta ventaja natural de las modalidades sensoriales ricas.
El Horizonte Temporal: 3 a 5 Años para la Transición
LeCun estima que podríamos tener «un buen manejo para hacer que esto funcione al menos a pequeña escala dentro de tres a cinco años», con IA de nivel humano llegando potencialmente «dentro de una década aproximadamente». Sin embargo, advierte contra el patrón histórico de sobre-optimismo en IA, donde cada nuevo paradigma se proclama como el camino hacia la inteligencia de nivel humano en una década.
En el Foro Económico Mundial de Davos, LeCun fue aún más categórico: «Nadie en su sano juicio los usaría más, al menos no como el componente central de un sistema de IA», refiriéndose a los sistemas GenAI actuales. Espera que ocurra una revolución en los próximos tres a cinco años durante la cual emergerá un nuevo paradigma de arquitecturas de IA que excederá ampliamente las capacidades de los sistemas actuales.

La Década de la Robótica
LeCun predice que los años venideros serán una «década de robótica», donde los avances en IA y robótica se combinen para desbloquear una nueva clase de aplicaciones inteligentes. META espera que los modelos del mundo impulsen una nueva era de robótica, potenciando agentes de IA que naveguen entornos físicos para abordar tareas domésticas y complejas.
V-JEPA 2 puede usarse para planificación robótica de cero disparos (zero-shot) para interactuar con objetos desconocidos en entornos nuevos, representando un salto cualitativo respecto a sistemas que requieren entrenamiento específico para cada tarea.
Bibliografía:
Referencias Técnicas Completas:
- LeCun, Y. (2022). «A Path Towards Autonomous Machine Intelligence.» Meta AI Research. OpenReview. https://openreview.net/pdf?id=BZ5a1r-kVsf
- Bardes, A., Garrido, Q., Ponce, J., Chen, X., Rabbat, M., LeCun, Y., Assran, M., & Ballas, N. (2024). «Revisiting Feature Prediction for Learning Visual Representations from Video.» International Conference on Learning Representations (ICLR).
- Assran, M., et al. (2024). «V-JEPA: Latent Video Prediction for Visual Representation Learning.» Meta AI. Available: https://ai.meta.com/blog/v-jepa-yann-lecun-ai-model-video-joint-embedding-predictive-architecture/
- Assran, M., et al. (2025). «V-JEPA 2: Self-Supervised Video Models Enable Understanding, Prediction and Planning.» arXiv preprint arXiv:2506.09985.
- Dawid, A., & Courville, A. (2023). «Introduction to Latent Variable Energy-Based Models: A Path Towards Autonomous Machine Intelligence.» arXiv preprint arXiv:2306.02572.
* Sobre el autor: El autor es médico y cirujano especialista en Informática Médica, es máster en Inteligencia Artificial y en Ciencia de Datos. Actualmente residen en Barcelona, donde colabora como profesor visitante de la Universidad de Barcelona para el grado y posgrado en Ingeniería Biomédica. Es asesor de varias empresas del mundo tecnológico y Faculty Member de la Universidad de Rochester de los EUA.
Descargo de responsabilidad: Este artículo presenta un análisis de declaraciones públicas y papers técnicos. Las predicciones sobre el futuro de la IA son inherentemente inciertas. Los líderes empresariales deben consultar con sus propios asesores técnicos antes de tomar decisiones de inversión significativas. El autor no tiene afiliación alguna con Meta, NVIDIA, ni ninguna entidad mencionada.
