NVIDIA presenta la primera IA de contexto largo del mundo: puede atender a 32 veces más usuarios a la vez en vivo

_Helix Paralelism_ ha sido diseñado junto con Blackwell, el sistema GPU más reciente de NVIDIA

09/07/2025 10:32

Si la inteligencia artificial ha llegado tan lejos es, en parte, gracias a NVIDIA. La compañía estadounidense, tradicionalmente centrada específicamente en el mundo gaming con sus GPUs, lleva años desarrollando los mejores chips para IA, lo que la ha acabado convirtiendo en la principal proveedora del mundo. Todas las grandes empresas dedicadas a mejorar esta tecnología utilizan los productos de NVIDIA.

Tecnología

Recientemente, los de Jensen Huang han presentado Helix Parallelism; una innovadora técnica de paralelización que busca acelerar la inferencia de los modelos de lenguajes grandes (LLMs, por sus siglas en inglés) cuando manejan contextos extremadamente largos, de hasta millones de tokens (la unidad más pequeña de datos que un modelo de lenguaje es capaz de procesar).

Con Helix Parallelism, NVIDIA podría mejorar notablemente el funcionamiento de los modelos de IA en contextos masivos, permitiendo a los modelos atender no solo a más usuarios, sino hacerlo todavía más rápido. ¿Será el engranaje que le faltaba a la IA para evolucionar? Si no lo es, desde luego que ayuda a estar más cerca de él.

Helix compartimenta el trabajo para reutilizar los recursos de forma inteligente y reducir el tiempo de inactividad

Helix Parallelism de NVIDIA ha sido diseñado en conjunto con Blackwell, el sistema de GPU más reciente de la compañía; puede ofrecer un ancho de banda de memoria ultraalto y computación FP4. Promete resolver el principal problema de los grandes modelos de inteligencia artificial: no solo su tamaño, sino su 'contexto'.

El 'contexto' en inteligencia artificial se refiere a la información relevante que permite a un sistema de IA comprender y responder adecuadamente a una situación específica. Es la base de conocimiento que ayuda a esta tecnología a mantener conversaciones coherentes y a realizar las tareas con cierta precisión.

Cada palabra que la IA produce requiere el escaneo de tokens anteriores almacenados en la caché KV. Leer esta caché repetidamente sobrecarga el ancho de banda de la memoria de la GPU. Al mismo tiempo, la IA requiere recargar grandes pesos de la Red de Avance (FFN) de la memoria para procesar cada palabra nueva, ralentizando así el proceso, sobre todo en escenarios de uso en tiempo real.

Helix Parallelism soluciona esto dividiendo las partes de atención y FFN de la capa de transformador de un modelo y gestionándolas por separado. Durante la fase de atención, Helix distribuye la enorme caché KV entre las GPU mediante un nuevo método llamado KV Parallelism (KVP).

Resumiendo: Helix compartimenta el trabajo, haciendo que cada GPU gestione solo una parte. Luego, estas mismas GPU pasan al modo TP estándar para ejecutar la capa FFN, reutilizando los recursos de forma inteligentes y reduciendo el tiempo de inactividad. Se ha puesto a prueba con DeepSeek-R1 671B, que cuenta con un contexto de un millón de tokens, y Helix es capaz de atender hasta 32 veces más usuarios con la misma latencia en comparación con los métodos más antiguos.