mozzicone Qwen2 - L'ultimo modello linguistico multilingue di Alibaba sfida SOTA come Llama 3 - Unite.AI
Seguici sui social

Intelligenza Artificiale

Qwen2 – L’ultimo modello linguistico multilingue di Alibaba sfida SOTA come Llama 3

mm
aggiornato on
evoluzione da Qwen1.5 a Qwen2

Dopo mesi di attesa, Il team Qwen di Alibaba ha finalmente presentato Qwen2 – la prossima evoluzione della loro potente serie di modelli linguistici. Qwen2 rappresenta un significativo passo avanti, vantando progressi all'avanguardia che potrebbero potenzialmente posizionarlo come la migliore alternativa al celebre Meta lama 3 modello. In questo approfondimento tecnico, esploreremo le caratteristiche principali, i benchmark delle prestazioni e le tecniche innovative che rendono Qwen2 un formidabile concorrente nel regno dei modelli linguistici di grandi dimensioni (LLM).

Ampliamento: presentazione della linea di modelli Qwen2

Al centro di Qwen2 si trova una gamma diversificata di modelli su misura per soddisfare le diverse esigenze computazionali. La serie comprende cinque dimensioni di modello distinte: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e l'ammiraglia Qwen2-72B. Questa gamma di opzioni si rivolge a un ampio spettro di utenti, da quelli con risorse hardware modeste a quelli con accesso a infrastrutture computazionali all'avanguardia.

Una delle caratteristiche distintive di Qwen2 sono le sue capacità multilingue. Mentre il precedente Qwen1.5 modello eccelleva in inglese e cinese, Qwen2 è stato addestrato su dati che abbracciano ben 27 lingue aggiuntive. Questo regime di formazione multilingue comprende lingue provenienti da diverse regioni come l'Europa occidentale, l'Europa centrale e orientale, il Medio Oriente, l'Asia orientale e l'Asia meridionale.

Tabella che elenca le lingue supportate dai modelli Qwen2, classificate per regioni

Lingue supportate dai modelli Qwen2, classificate per regioni geografiche

Espandendo il suo repertorio linguistico, Qwen2 dimostra un'eccezionale capacità di comprendere e generare contenuti in un'ampia gamma di lingue, rendendolo uno strumento inestimabile per applicazioni globali e comunicazione interculturale.

 

Tabella che confronta i modelli Qwen2 per parametri, parametri di non incorporamento, GQA, incorporamento di vincoli e lunghezza del contesto

Specifiche dei modelli Qwen2 inclusi parametri, GQA e lunghezza del contesto.

Affrontare il cambio di codice: una sfida multilingue

Nei contesti multilinguistici, il fenomeno del code-switching – la pratica di alternare lingue diverse all’interno di una singola conversazione o espressione – è un evento comune. Qwen2 è stato meticolosamente addestrato per gestire scenari di commutazione di codice, riducendo significativamente i problemi associati e garantendo transizioni fluide tra le lingue.

Le valutazioni che utilizzano suggerimenti che in genere inducono la commutazione di codice hanno confermato il sostanziale miglioramento di Qwen2 in questo ambito, a testimonianza dell'impegno di Alibaba nel fornire un modello linguistico veramente multilingue.

Eccellere in programmazione e matematica

Qwen2 ha notevoli capacità nei settori della codifica e della matematica, aree che tradizionalmente hanno posto sfide ai modelli linguistici. Sfruttando estesi set di dati di alta qualità e metodologie di formazione ottimizzate, Qwen2-72B-Instruct, la variante ottimizzata per le istruzioni del modello di punta, mostra prestazioni eccezionali nella risoluzione di problemi matematici e attività di codifica in vari linguaggi di programmazione.

Estendere la comprensione del contesto

Una delle caratteristiche più impressionanti di Qwen2 è la sua capacità di comprendere ed elaborare sequenze di contesto estese. Mentre la maggior parte dei modelli linguistici ha difficoltà con il testo di lunga durata, i modelli Qwen2-7B-Instruct e Qwen2-72B-Instruct sono stati progettati per gestire lunghezze di contesto fino a 128 token.

Questa straordinaria capacità rappresenta un punto di svolta per le applicazioni che richiedono una comprensione approfondita di documenti lunghi, come contratti legali, documenti di ricerca o manuali tecnici densi. Elaborando in modo efficace contesti estesi, Qwen2 può fornire risposte più accurate e complete, sbloccando nuove frontiere nell'elaborazione del linguaggio naturale.

Grafico che mostra l'accuratezza del recupero dei fatti dei modelli Qwen2 su diverse lunghezze di contesto e profondità di documenti

Precisione dei modelli Qwen2 nel recupero di fatti da documenti in diverse lunghezze di contesto e profondità di documenti.

Questo grafico mostra la capacità dei modelli Qwen2 di recuperare fatti da documenti di varia lunghezza e profondità di contesto.

Innovazioni architettoniche: attenzione alle query di gruppo e incorporamenti ottimizzati

Sotto il cofano, Qwen2 incorpora diverse innovazioni architettoniche che contribuiscono alle sue prestazioni eccezionali. Una di queste innovazioni è l'adozione del Group Query Attention (GQA) in tutti i modelli di dimensioni. GQA offre velocità di inferenza più elevate e un utilizzo ridotto della memoria, rendendo Qwen2 più efficiente e accessibile a una gamma più ampia di configurazioni hardware.

Inoltre, Alibaba ha ottimizzato gli incorporamenti per i modelli più piccoli della serie Qwen2. Unendo gli incorporamenti, il team è riuscito a ridurre l'ingombro di memoria di questi modelli, consentendone l'implementazione su hardware meno potente pur mantenendo prestazioni di alta qualità.

Benchmarking Qwen2: prestazioni superiori ai modelli all'avanguardia

Qwen2 ha prestazioni notevoli in una vasta gamma di benchmark. Le valutazioni comparative rivelano che Qwen2-72B, il modello più grande della serie, supera i principali concorrenti come Llama-3-70B in aree critiche, tra cui la comprensione del linguaggio naturale, l'acquisizione di conoscenze, la competenza di codifica, abilità matematiche e abilità multilingue.

Grafici che confrontano Qwen2-72B-Instruct e Llama3-70B-Instruct nella codifica in diversi linguaggi di programmazione e in matematica in diversi esami

Qwen2-72B-Instruct contro Llama3-70B-Instruct nella codifica e nelle prestazioni matematiche

Nonostante abbia meno parametri rispetto al suo predecessore, Qwen1.5-110B, Qwen2-72B mostra prestazioni superiori, a testimonianza dell'efficacia dei set di dati meticolosamente curati di Alibaba e delle metodologie di formazione ottimizzate.

Sicurezza e responsabilità: allineamento ai valori umani

Qwen2-72B-Instruct è stato rigorosamente valutato per la sua capacità di gestire query potenzialmente dannose relative ad attività illegali, frode, pornografia e violazioni della privacy. I risultati sono incoraggianti: Qwen2-72B-Instruct ha prestazioni paragonabili al modello GPT-4 molto apprezzato in termini di sicurezza, esibendo proporzioni significativamente inferiori di risposte dannose rispetto ad altri modelli di grandi dimensioni come Mistral-8x22B.

Questo risultato sottolinea l’impegno di Alibaba nello sviluppo di sistemi di intelligenza artificiale in linea con i valori umani, garantendo che Qwen2 non sia solo potente ma anche affidabile e responsabile.

Licenze e impegno open source

Con una mossa che amplifica ulteriormente l’impatto di Qwen2, Alibaba ha adottato un approccio open source alla licenza. Mentre Qwen2-72B e i suoi modelli ottimizzati per le istruzioni mantengono la licenza Qianwen originale, i restanti modelli – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B e Qwen2-57B-A14B – sono stati concessi in licenza con la licenza permissiva Apache 2.0. .

Si prevede che questa maggiore apertura accelererà l’applicazione e l’uso commerciale dei modelli Qwen2 in tutto il mondo, promuovendo la collaborazione e l’innovazione all’interno della comunità globale di intelligenza artificiale.

Utilizzo e implementazione

L'uso dei modelli Qwen2 è semplice, grazie alla loro integrazione con framework popolari come Abbracciare il viso. Ecco un esempio di utilizzo di Qwen2-7B-Chat-beta per l'inferenza:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Questo frammento di codice mostra come impostare e generare testo utilizzando il modello Qwen2-7B-Chat. L'integrazione con Abbracciare il viso lo rende accessibile e facile da sperimentare.

Qwen2 contro Llama 3: un'analisi comparativa

Mentre Qwen2 e Il lama di Meta 3 sono entrambi modelli linguistici formidabili, mostrano punti di forza e compromessi distinti.

Grafico di confronto delle prestazioni di Qwen2-72B, Llama3-70B, Mixtral-8x22B e Qwen1.5-110B su più benchmark

Un grafico comparativo delle prestazioni di Qwen2-72B, Llama3-70B, Mixtral-8x22B e Qwen1.5-110B su vari benchmark tra cui MMLU, MMLU-Pro, GPQA e altri.

Ecco un'analisi comparativa per aiutarti a comprendere le differenze principali:

Capacità multilingue: Qwen2 presenta un chiaro vantaggio in termini di supporto multilingue. La sua formazione su dati che abbracciano 27 lingue aggiuntive, oltre all'inglese e al cinese, consente a Qwen2 di eccellere nella comunicazione interculturale e negli scenari multilinguistici. Al contrario, le capacità multilingue di Llama 3 sono meno pronunciate, limitando potenzialmente la sua efficacia in diversi contesti linguistici.

Competenza in matematica e codifica: Sia Qwen2 che lama 3 dimostrare abilità matematiche e di codifica impressionanti. Tuttavia, Qwen2-72B-Instruct sembra avere un leggero vantaggio, grazie alla sua rigorosa formazione su set di dati estesi e di alta qualità in questi settori. L’attenzione di Alibaba sul miglioramento delle capacità di Qwen2 in queste aree potrebbe dargli un vantaggio per applicazioni specializzate che coinvolgono la codifica o la risoluzione di problemi matematici.

Comprensione del contesto lungo: I modelli Qwen2-7B-Instruct e Qwen2-72B-Instruct vantano un'impressionante capacità di gestire lunghezze di contesto fino a 128 token. Questa funzionalità è particolarmente utile per le applicazioni che richiedono una comprensione approfondita di documenti lunghi o materiali tecnici densi. Llama 3, pur essendo in grado di elaborare lunghe sequenze, potrebbe non eguagliare le prestazioni di Qwen2 in quest'area specifica.

Sebbene sia Qwen2 che Llama 3 mostrino prestazioni all'avanguardia, la diversificata gamma di modelli di Qwen2, che va dai parametri da 0.5B a 72B, offre maggiore flessibilità e scalabilità. Questa versatilità consente agli utenti di scegliere la dimensione del modello che meglio si adatta alle proprie risorse computazionali e ai requisiti prestazionali. Inoltre, gli sforzi continui di Alibaba per adattare Qwen2 a modelli più grandi potrebbero migliorare ulteriormente le sue capacità, superando potenzialmente Llama 3 in futuro.

Distribuzione e integrazione: semplificazione dell'adozione di Qwen2

Per facilitare l’adozione diffusa e l’integrazione di Qwen2, Alibaba ha adottato misure proattive per garantire un’implementazione senza soluzione di continuità su varie piattaforme e framework. Il team Qwen ha collaborato a stretto contatto con numerosi progetti e organizzazioni di terze parti, consentendo di sfruttare Qwen2 insieme a un'ampia gamma di strumenti e framework.

Ottimizzazione e quantizzazione: Progetti di terze parti come Axolotl, Llama-Factory, Firefly, Swift e XTuner sono stati ottimizzati per supportare la messa a punto dei modelli Qwen2, consentendo agli utenti di adattare i modelli alle loro attività e set di dati specifici. Inoltre, strumenti di quantizzazione come AutoGPTQ, AutoAWQe Neural Compressor sono stati adattati per funzionare con Qwen2, facilitando un'implementazione efficiente su dispositivi con risorse limitate.

Distribuzione e inferenza: I modelli Qwen2 possono essere distribuiti e serviti utilizzando una varietà di framework, tra cui vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoe TGI. Questi framework offrono pipeline di inferenza ottimizzate, consentendo un'implementazione efficiente e scalabile di Qwen2 negli ambienti di produzione.

Piattaforme API ed esecuzione locale: Per gli sviluppatori che desiderano integrare Qwen2 nelle proprie applicazioni, le piattaforme API come Together, Fireworks e OpenRouter forniscono un comodo accesso alle funzionalità dei modelli. In alternativa, l'esecuzione locale è supportata tramite framework come MLX, Llama.cpp, Ollamae LM Studio, consentendo agli utenti di eseguire Qwen2 sui propri computer locali mantenendo il controllo sulla privacy e sulla sicurezza dei dati.

Agente e framework RAG: Il supporto di Qwen2 per l'uso degli strumenti e le funzionalità degli agenti è rafforzato da framework come CallIndex, CrewAI e OpenDevin. Questi framework consentono la creazione di agenti IA specializzati e l'integrazione di Qwen2 in generazione aumentata con recupero (RAG) pipeline, ampliando la gamma di applicazioni e casi d’uso.

Guardando al futuro: sviluppi futuri e opportunità

La visione di Alibaba per Qwen2 va ben oltre la versione attuale. Il team sta attivamente formando modelli più ampi per esplorare le frontiere del model scaling, integrato da continui sforzi di data scaling. Inoltre, sono in corso piani per estendere Qwen2 al regno dell’intelligenza artificiale multimodale, consentendo l’integrazione delle capacità di comprensione visiva e audio.

Mentre l’ecosistema AI open source continua a prosperare, Qwen2 svolgerà un ruolo fondamentale, fungendo da potente risorsa per ricercatori, sviluppatori e organizzazioni che cercano di far avanzare lo stato dell’arte nell’elaborazione del linguaggio naturale e nell’intelligenza artificiale.

Ho trascorso gli ultimi cinque anni immergendomi nell'affascinante mondo del Machine Learning e del Deep Learning. La mia passione e competenza mi hanno portato a contribuire a oltre 50 diversi progetti di ingegneria del software, con un focus particolare su AI/ML. La mia continua curiosità mi ha anche attirato verso l'elaborazione del linguaggio naturale, un campo che non vedo l'ora di esplorare ulteriormente.