Alibaba lancia il modello di intelligenza artificiale Qwen3-Next più efficiente
Secondo quanto riportato da Jinse Finance, Tongyi Qianwen, una sussidiaria di Alibaba, ha rilasciato la nuova architettura di modello di base Qwen3-Next e ha reso open source la serie di modelli Qwen3-Next-80B-A3B basata su questa architettura. Rispetto alla struttura MoE del Qwen3, questa nuova architettura presenta i seguenti miglioramenti chiave: meccanismo di attenzione ibrido, struttura MoE ad alta sparsità, una serie di ottimizzazioni che favoriscono la stabilità durante l’addestramento e un meccanismo di previsione multi-token che migliora l’efficienza dell’inferenza. Basandosi sulla struttura del modello Qwen3-Next, Alibaba ha addestrato il modello Qwen3-Next-80B-A3B-Base, che possiede 80 miliardi di parametri ma ne attiva solo 3 miliardi. Questo modello Base raggiunge prestazioni simili o leggermente superiori rispetto al modello denso Qwen3-32B, mentre il costo di addestramento (in ore GPU) è inferiore a un decimo di quello del Qwen3-32B e la velocità di inferenza su contesti superiori a 32k è più di dieci volte superiore rispetto al Qwen3-32B, realizzando così un rapporto qualità-prezzo estremamente elevato sia per l’addestramento che per l’inferenza.
Esclusione di responsabilità: il contenuto di questo articolo riflette esclusivamente l’opinione dell’autore e non rappresenta in alcun modo la piattaforma. Questo articolo non deve essere utilizzato come riferimento per prendere decisioni di investimento.
Ti potrebbe interessare anche
Dati: 16.499.500 LDO trasferiti da un indirizzo anonimo, per un valore di circa 9,16 milioni di dollari
In tendenza
AltroConsigliere della Casa Bianca: l'affidabilità del CPI è leggermente diminuita a causa della chiusura del governo, la Federal Reserve ha ancora ampio margine per tagliare i tassi d'interesse.
La Federal Reserve intende istituire una procedura di approvazione rapida per le banche innovative che cercano di operare a livello nazionale
