Le système de puces d'inférence prochainement lancé par Nvidia intègre la technologie "Language Processing Unit" (LPU) de Groq, adoptant une architecture totalement différente de celle des GPU traditionnels. Grâce à une intégration plus étendue de la SRAM et à la technologie d'empilement 3D, il est spécialement optimisé pour résoudre les problèmes de latence et de bande passante mémoire dans l'inférence de grands modèles.
Le système de puces d'inférence prochainement lancé par Nvidia intègre la technologie "Language Processing Unit" (LPU) de Groq, adoptant une architecture totalement différente de celle des GPU traditionnels. Grâce à une intégration plus étendue de la SRAM et à la technologie d'empilement 3D, il est spécialement optimisé pour résoudre les problèmes de latence et de bande passante mémoire dans l'inférence de grands modèles.
Afficher le texte d'origine
Ce nouveau produit pourrait être basé sur la conception de la prochaine génération d’architecture Feynman, réduisant ainsi considérablement la consommation d’énergie et les coûts d’exploitation des agents d’IA. OpenAI s’est engagé à acheter et à investir 30 milliards de dollars. Nvidia prévoit de lancer le mois prochain, lors de la conférence développeurs GTC, une toute nouvelle puce d’inférence intégrant la technologie Groq « Language Processing Unit » (LPU), ce qui marque l’accélération de la transformation de Nvidia vers le domaine du calcul d’inférence afin de répondre à la demande pressante des clients pour des solutions informatiques performantes et à faible coût. Selon le Wall Street Journal, ce nouveau système, qualifié par le PDG de Nvidia Jensen Huang de « jamais vu dans le monde », est spécialement conçu pour accélérer la réponse aux requêtes des modèles d’IA. Le lancement de ce produit devrait remodeler la structure actuelle du marché de la puissance de calcul de l’IA, impactant directement les fournisseurs de services cloud et les investisseurs institutionnels à la recherche d’alternatives plus rentables. En tant que signe important de la reconnaissance initiale du marché pour cette technologie, OpenAI, le développeur de ChatGPT, a déjà accepté de devenir l’un des plus grands clients de ce nouveau processeur et a annoncé qu’il achèterait à Nvidia une grande capacité d’inférence dédiée. Cette démarche consolide non seulement la base de clients clés de Nvidia, mais envoie également un signal clair au marché : l’infrastructure sous-jacente soutenant les agents d’IA autonomes évolue du pré-entraînement massif vers une inférence efficace. Face à la concurrence féroce d’une certaine bourse et de nombreuses start-ups, Nvidia dépasse la dépendance unique aux GPU traditionnels. En introduisant de nouvelles architectures technologiques et en explorant des modes de déploiement purement CPU, l’entreprise tente de consolider sa domination sur le marché lors de la prochaine phase d’évolution de l’industrie de l’IA. Intégration de la conception LPU, ciblant le goulot d’étranglement de l’inférence des grands modèlesÀ mesure que l’industrie de l’IA passe de l’entraînement des modèles au déploiement d’applications réelles, le calcul d’inférence devient le point central. L’inférence de l’IA se divise principalement en deux étapes : le pré-remplissage (pre-fill) et le décodage (decode), le processus de décodage des grands modèles d’IA étant particulièrement lent. Pour surmonter ce goulot d’étranglement technique, Nvidia a choisi d’intégrer des technologies externes afin de dépasser les limites physiques. Selon le Wall Street Journal, Nvidia a acquis à la fin de l’année dernière une licence technologique clé auprès de la start-up Groq pour 20 milliards de dollars et a recruté l’équipe dirigeante, dont le fondateur Jonathan Ross, lors d’une opération de « recrutement central » à grande échelle. La « Language Processing Unit » (LPU) conçue par Groq adopte une architecture radicalement différente des GPU traditionnels, offrant une efficacité exceptionnelle dans le traitement des fonctions d’inférence. Selon les analystes du secteur, le nouveau produit à venir pourrait impliquer une architecture Feynman de nouvelle génération et potentiellement disruptive. Selon un article précédent de Wall Street News, l’architecture Feynman pourrait adopter une intégration SRAM plus large, voire intégrer profondément la LPU grâce à la technologie d’empilement 3D, optimisée spécifiquement pour les deux principaux goulots d’étranglement de l’inférence : la latence et la bande passante mémoire, réduisant ainsi considérablement la consommation d’énergie et les coûts d’exploitation des agents d’IA.Développement du déploiement purement CPU, offrant des choix informatiques diversifiésEn introduisant l’architecture LPU, Nvidia ajuste également de manière flexible l’utilisation de ses processeurs traditionnels. La pratique standard de Nvidia consistait à associer le CPU Vera à son puissant GPU Rubin dans les serveurs de centres de données, mais pour certains workloads spécifiques d’agents d’IA, cette configuration s’est avérée trop coûteuse et peu efficace énergétiquement. Certains grands clients d’entreprise ont constaté qu’un environnement purement CPU était plus efficace pour exécuter certaines tâches d’IA. En réponse à cette tendance, Nvidia a annoncé ce mois-ci l’élargissement de sa collaboration avec Meta Platforms, réalisant le premier déploiement à grande échelle de CPU purs pour soutenir les agents d’IA de ciblage publicitaire de Meta. Cette coopération est considérée par le marché comme une fenêtre précoce sur l’ajustement stratégique de Nvidia, indiquant que l’entreprise dépasse le modèle unique de vente de GPU pour tenter de verrouiller différents segments du marché de l’IA grâce à une combinaison matérielle diversifiée.Changement de la demande du marché, intensification de la concurrenceCette évolution de la conception matérielle de base découle directement de l’explosion de la demande du secteur technologique pour les applications d’agents d’IA. De nombreuses entreprises qui construisent et exploitent des agents d’IA ont constaté que le coût des GPU traditionnels est trop élevé et qu’ils ne sont pas le meilleur choix pour l’exécution réelle des modèles. Les mouvements d’OpenAI soulignent cette tendance. Outre l’engagement à acheter le nouveau système de Nvidia pour améliorer son outil Codex en forte croissance, OpenAI a également conclu le mois dernier un partenariat informatique de plusieurs milliards de dollars avec la start-up Cerebras. Selon Andrew Feldman, PDG de Cerebras, leurs puces axées sur l’inférence surpassent en vitesse les GPU de Nvidia. De plus, OpenAI a signé un accord majeur pour utiliser les puces Trainium d’une certaine bourse. Ce ne sont pas seulement les start-ups, les principaux fournisseurs de services cloud accélèrent également le développement de leurs propres puces. Anthropic Claude Code, largement considéré comme le leader du marché du codage automatique, dépend actuellement principalement des puces conçues par une certaine bourse et une filiale de cette bourse, plutôt que des produits Nvidia. Face à la pression des concurrents, Jensen Huang a souligné dans une interview à wccftech que Nvidia évolue d’un simple fournisseur de puces à un constructeur d’un écosystème IA complet englobant les semi-conducteurs, les centres de données, le cloud et les applications. Pour les investisseurs, la conférence GTC du mois prochain sera un moment clé pour vérifier si Nvidia peut maintenir son mythe de 90% de part de marché à l’ère de l’inférence.
0
0
Avertissement : le contenu de cet article reflète uniquement le point de vue de l'auteur et ne représente en aucun cas la plateforme. Cet article n'est pas destiné à servir de référence pour prendre des décisions d'investissement.
PoolX : Bloquez vos actifs pour gagner de nouveaux tokens
Jusqu'à 12% d'APR. Gagnez plus d'airdrops en bloquant davantage.
Bloquez maintenant !
Vous pourriez également aimer
En vogue
PlusPrix des cryptos
PlusBitcoin
BTC
$67,820.33
-1.16%
Ethereum
ETH
$1,978.29
-0.07%
Tether USDt
USDT
$0.9999
-0.01%
BNB
BNB
$624.5
-0.70%
XRP
XRP
$1.36
-0.22%
USDC
USDC
$0.9999
+0.01%
Solana
SOL
$83.65
-1.46%
TRON
TRX
$0.2849
-0.19%
Dogecoin
DOGE
$0.08997
-0.64%
Cardano
ADA
$0.2549
-1.01%
Comment vendre PI
Bitget liste PI – Achetez ou vendez PI rapidement sur Bitget !
Trader maintenant
Pas encore Bitgetter ?Un pack de bienvenue d'une valeur de 6200 USDT pour les nouveaux utilisateurs !
S'inscrire maintenant