¿Ha llegado realmente la era de la inferencia de IA? El cambio de poder entre GPUs, CPUs y ASICs

Mercados
Actualizado: 22/06/2026 11:22

22 de junio de 2026: Las acciones estadounidenses de chips se dispararon en todos los ámbitos. El Philadelphia Semiconductor Index subió un 6,42 % en un solo día. Intel se disparó más de un 10 % tras anunciar una alianza de fabricación de chips con Apple. Los ADR de TSMC subieron un 6,94 % y cerraron en 462,12 $, mientras que Nvidia avanzó casi un 3 %. Este repunte del mercado refleja una aceleración en el cambio de paradigma del sector: la demanda de computación para IA está pasando de estar impulsada por el entrenamiento a estar dominada por la inferencia.

El análisis sectorial muestra que la inferencia representa ahora dos tercios de la demanda total de computación para IA, frente a aproximadamente un tercio en 2023, y se prevé que alcance el 70 %–85 % entre 2028 y 2030. Este cambio estructural está redefiniendo el principal campo de batalla en la competencia de chips: de "quién tiene la GPU más rápida para entrenar" a "qué chip ofrece el menor coste total de inferencia y el mayor rendimiento".

El mercado global de chips de inferencia para IA está valorado en 85,4 mil millones de dólares en 2024 y se proyecta que crezca de 105,47 mil millones en 2025 a 570,77 mil millones en 2033, con una tasa de crecimiento anual compuesta (CAGR) del 23,5 % durante el periodo de previsión. Solo el mercado de chips de inferencia en la nube se estima en 102,19 mil millones de dólares en 2025, con previsión de alcanzar 118,9 mil millones en 2026 y hasta 320,98 mil millones en 2032. Mientras tanto, el mercado global de chipsets de IA en el edge (incluyendo inferencia y entrenamiento) se espera que pase de 34,4 mil millones en 2026 a 96 mil millones en 2031.

Durante este ciclo de expansión, el equilibrio de poder entre los distintos tipos de chips está cambiando de forma sutil pero profunda. Las GPU siguen siendo el actor dominante, respaldadas por la demanda tanto de entrenamiento como de inferencia, y se espera que mantengan un crecimiento anual del 20 % hasta 2031. Sin embargo, muchos analistas consideran que los ASIC de IA son el segmento de mayor crecimiento. Analistas de JPMorgan estiman que el mercado de ASIC digitales para IA alcanzará los 60–70 mil millones de dólares en 2026, con un crecimiento anual superior al 40–50 % en los próximos años.

Aún más destacable es el resurgimiento de las CPU. Durante los últimos tres años, las CPU han tenido un papel periférico en el discurso sobre IA, pero la explosión de la demanda de inferencia está transformando este panorama.

Por qué las CPU vuelven al centro del escenario

La inferencia y el entrenamiento de IA difieren fundamentalmente en su lógica computacional. El entrenamiento implica operaciones masivas de matrices en paralelo—billones de cálculos en coma flotante ejecutados simultáneamente en miles de núcleos de GPU, el terreno donde estas brillan. La inferencia, especialmente en IA agentica, implica orquestación de tareas, invocación de herramientas, razonamiento lógico en múltiples pasos y toma de decisiones secuenciales. Estas cargas de trabajo dependen en gran medida del control lógico complejo y el procesamiento en serie, áreas en las que las CPU destacan.

Un estudio conjunto de Georgia Tech e Intel reveló que, en escenarios de IA agentica, entre el 50 % y el 90 % de la latencia proviene de la CPU, no del acelerador de cómputo, ya que los modelos grandes deben llamar a plugins, realizar búsquedas web y gestionar lógica de múltiples pasos, todo ello controlado por la CPU. La propia Nvidia reconoció esta realidad en marzo de 2026: el directivo Dion Harris declaró públicamente: "La CPU se está convirtiendo en el cuello de botella en los flujos de trabajo de IA", una admisión llamativa por parte de una empresa cuya premisa era que "las GPU son los únicos chips que necesita la IA".

Los cambios en las proporciones de configuración ilustran claramente esta tendencia. En el entrenamiento de IA, la relación CPU:GPU suele ser extrema, de 1:8, con las GPU asumiendo la mayor parte de la carga computacional. Pero en la era de la inferencia, TrendForce informa que esta relación se está estrechando rápidamente, situándose entre 1:1 y 1:2. El CEO de Intel, Pat Gelsinger, señaló en la presentación de resultados del primer trimestre de 2026 que las cargas de entrenamiento suelen requerir 7–8 GPU por cada CPU, pero en inferencia esta proporción se ha reducido a 3–4 GPU por CPU, con la perspectiva de alcanzar un equilibrio de 1:1.

Según las estimaciones del CEO de Nvidia, Jensen Huang: cada centro de datos a escala de gigavatio requiere unas 300 000 GPU Rubin y, considerando 136 núcleos por CPU ARM, unas 221 000 CPU por gigavatio. Esto sitúa la nueva proporción CPU:GPU en aproximadamente 1:1,4. En comparación con la era dominada por las GPU, el estatus de la CPU ha aumentado notablemente.

El foso de las GPU y los retos de la inferencia

A pesar del resurgimiento de las CPU, las GPU mantienen una posición insustituible en la inferencia de IA, gracias a sus ventajas en ancho de banda de memoria y rendimiento en paralelo.

Durante la inferencia de modelos de lenguaje (LLM), la generación de cada token requiere leer desde cientos de millones hasta decenas de miles de millones de parámetros, una tarea clásica intensiva en memoria. Las CPU dependen de memoria DDR del sistema, que normalmente ofrece un ancho de banda de 50–100 GB/s. Las GPU emplean memoria GDDR6X o HBM, con anchos de banda superiores a 800 GB/s; las GPU de gama alta con HBM2e alcanzan 1,5 TB/s, 20 veces más que las CPU. En la inferencia del modelo Llama 3.1 8B, las soluciones basadas en CPU ofrecen solo 819 tokens/s por tarea, mientras que un clúster de 8 GPU alcanza 46 841 tokens/s. A medida que aumentan las peticiones concurrentes, el rendimiento de la CPU cae bruscamente de 819 tokens/s a 257 tokens/s, mientras que el clúster de 8 GPU apenas experimenta degradación.

En términos de densidad de cómputo, las GPU ofrecen miles de núcleos CUDA para paralelización, soportan formatos de baja precisión como FP4/FP8 y alcanzan cientos de TFLOPS. Las CPU suelen proporcionar cómputo FP32 en el rango de 1–10 TFLOPS.

Estas cifras demuestran que, para escenarios de inferencia de alto rendimiento y alta concurrencia—como los grandes servicios de IA en la nube—las GPU siguen siendo la solución óptima. El dominio de Nvidia en este campo es incuestionable. Según SemiAnalysis, Nvidia ostentaba una cuota del 92 % en el mercado de chips de entrenamiento de IA y del 78 % en el de inferencia en el primer trimestre de 2026. IDC estima que Nvidia controla alrededor del 81 % del mercado de chips de IA. Se espera que el mercado de aceleradores de IA alcance los 160 mil millones de dólares en 2025 y supere los 200 mil millones en 2026, con el gasto en inferencia representando dos tercios del total.

Sin embargo, la cuota de mercado de las GPU en inferencia enfrenta múltiples presiones: el regreso de las CPU, la competencia de ASIC especializados y consideraciones prácticas de costes.

La contraofensiva de los fabricantes de CPU en inferencia

La revalorización de las CPU en inferencia se ha traducido en un impulso de mercado tangible.

El mercado de procesadores para centros de datos está experimentando un rápido crecimiento, impulsado por la creciente demanda de cargas de trabajo de IA generativa. Se prevé que el tamaño del mercado pase de 215 mil millones de dólares en 2025 a 656 mil millones en 2031. Guohai Securities señala que los centros de datos hiperescalables están entrando en un "ciclo de actualización", con previsión de que los envíos de CPU para servidores crezcan un 25 % en 2026.

AMD es uno de los principales beneficiados de esta tendencia. La demanda de servidores para IA ha impulsado los envíos de CPU EPYC, con la quinta generación Turin capturando una cuota significativa del mercado de CPU para servidores. Se espera que el negocio de CPU para servidores de AMD crezca al menos un 50 % en 2026. Analistas de Bernstein pronostican que las ventas de los procesadores insignia EPYC podrían aumentar un 30 % en 2026. A principios de 2026, Intel posee cerca del 60 % del mercado de CPU para centros de datos, AMD alrededor del 24 % y Nvidia aproximadamente el 6 %. AMD también compite en el mercado de GPU para IA con sus aceleradores Instinct, lo que le otorga una posición dual única en la era de la inferencia.

Intel también está ajustando activamente su estrategia. En Computex, en junio de 2026, el nuevo CEO Pat Gelsinger anunció el regreso de las CPU al protagonismo en la era de la inferencia, aprovechando la tecnología de proceso 18A y arquitecturas desacopladas a escala de rack. La infraestructura de IA está pasando de un modelo "todo en uno" a un ensamblaje tipo "Lego". Los procesadores Xeon de Intel incorporan Advanced Matrix Extensions (AMX), que aceleran la inferencia en modelos de lenguaje grandes con tamaños de parámetro pequeños y medianos, incluso sin GPU ni otros aceleradores de IA.

El cambio más simbólico proviene de la propia Nvidia. La empresa que definió la era de la IA con las GPU lanzó en 2026 sus líneas de productos CPU Grace y Vera, siendo Vera diseñada específicamente para cargas de trabajo de inferencia y IA agentica. Nvidia espera que los ingresos de su negocio de CPU alcancen los 20 mil millones de dólares en 2026. Nvidia y Arm también lanzaron productos CPU independientes en 2026, marcando la entrada oficial del gigante de las GPU en el terreno de las CPU.

ASIC y chips dedicados: el auge de una tercera vía

Más allá del binomio GPU-CPU, los ASIC (circuitos integrados de aplicación específica) están emergiendo como la variable de mayor crecimiento en el mercado de inferencia.

TD Cowen prevé que la cuota de mercado de los aceleradores comerciales caerá del 91 % en 2025 al 75 % en 2030, mientras que los ASIC personalizados pasarán del 9 % al 25 %. Se espera que los envíos de servidores con ASIC crezcan un 44,6 % en 2026, frente a un crecimiento del 16,1 % en servidores con GPU—apenas un tercio del ritmo de los ASIC.

Los proveedores de nube hiperescalable están acelerando el desarrollo de chips de inferencia personalizados. Google TPU, AWS Inferentia, Meta MTIA y el LPU (Language Processing Unit) de Groq son todos chips ASIC optimizados para inferencia. Los ingresos de Broadcom por IA alcanzaron los 10,8 mil millones de dólares en el segundo trimestre de 2026, un 143 % más interanual, y la previsión anual es de 56 mil millones, un 180 % más. Se espera que Broadcom capture alrededor del 60 % del mercado de chips de IA personalizados.

Esta tendencia señala una transición en el mercado de chips de inferencia: de un "dominio de GPU de propósito general" a un panorama diversificado de "GPU + CPU + ASIC". Las GPU se encargan del entrenamiento intensivo y la inferencia a gran escala, las CPU gestionan la orquestación de tareas y el control del sistema, y los ASIC ofrecen eficiencia energética extrema para cargas de inferencia específicas.

Estructura de costes y la transformación de la economía de la inferencia

En última instancia, la selección de chips para inferencia se reduce a una cuestión central: el coste por millón de tokens.

Durante el entrenamiento, la precisión del modelo y el tiempo de entrenamiento son los principales parámetros, y la tolerancia al coste es mayor. Sin embargo, la inferencia es una actividad continua y de alta frecuencia: cada llamada a la API y cada petición de usuario generan costes directos. Esto desplaza la competencia de chips de la "potencia absoluta" al "rendimiento efectivo por unidad de coste".

Las soluciones basadas en GPU requieren una mayor inversión inicial en hardware. Por ejemplo, el AMD MI300X se vende por 10 000–15 000 $, mientras que el H100 de Nvidia oscila entre 25 000 y 40 000 $. Sin embargo, las GPU ofrecen menores costes de cómputo por unidad: las instancias GPU bajo demanda de los proveedores de nube generan tokens a un coste por segundo entre un 40 % y un 60 % inferior al de las instancias CPU. Las CPU resultan ventajosas en escenarios de tarea única, baja concurrencia y baja latencia, ya que no requieren inversión adicional en hardware.

No obstante, a medida que la inferencia escala, las soluciones basadas en CPU enfrentan un rápido aumento de los costes marginales. Cuando aumentan las peticiones concurrentes, las CPU deben programar tareas mediante rotación de tiempos, y la sobrecarga de cambio de contexto crece exponencialmente. Esto significa que, para despliegues de inferencia a gran escala, la inversión inicial elevada en soluciones GPU o ASIC suele traducirse en un ROI superior a largo plazo gracias a un mayor rendimiento y menores costes unitarios.

Conclusión

El auge de la demanda de inferencia—de un tercio a dos tercios de la computación para IA—refleja un cambio fundamental en la competencia de la industria de chips.

Para Nvidia, su cuasi monopolio en el mercado de entrenamiento (alrededor del 90 % de cuota) es poco probable que se vea amenazado a corto plazo, pero la batalla por la cuota incremental de inferencia se intensificará. New Street Research ofrece la previsión más agresiva: la cuota de Nvidia en inferencia podría caer al 20 %–30 % para 2028. Incluso la predicción más conservadora de Bloomberg Intelligence—que Nvidia retendrá un 70 %–75 % de cuota para 2030—reconoce que el crecimiento de los envíos de ASIC supera con creces al de las GPU.

Para AMD e Intel, el resurgimiento de la demanda de CPU en la era de la inferencia representa una oportunidad estructural. La estrategia dual de AMD con CPU EPYC y GPU Instinct, y las continuas iteraciones de procesadores Xeon de Intel con tecnología de proceso 18A, buscan capitalizar esta ventana.

Para los proveedores de nube y desarrolladores de aplicaciones de IA, disponer de más opciones de chips supone mayores oportunidades de optimización de costes. Desde GPU de propósito general hasta ASIC personalizados, pasando por inferencia en CPU y aceleración con GPU, la selección de hardware dependerá cada vez más de las particularidades de cada carga de trabajo: tamaño del modelo, requisitos de latencia, concurrencia y presupuesto.

La demanda de computación para inferencia en IA crece más rápido que la de entrenamiento. Este cambio de entrenamiento a inferencia está transformando toda la cadena industrial, desde el diseño de chips hasta la arquitectura de los centros de datos. Las GPU no perderán su lugar, pero ya no son la única respuesta.

The content herein does not constitute any offer, solicitation, or recommendation. You should always seek independent professional advice before making any investment decisions. Please note that Gate may restrict or prohibit the use of all or a portion of the Services from Restricted Locations. For more information, please read the User Agreement
Dale "Me gusta" al contenido