Suivez nous sur

Intelligence artificielle

Qwen2 – Le dernier modèle linguistique multilingue d'Alibaba défie SOTA comme Llama 3

mm
Le kit de préparation mis à jour on
évolution de Qwen1.5 vers Qwen2

Après des mois d'attente, L'équipe Qwen d'Alibaba a enfin dévoilé Qwen2 – la prochaine évolution de leur puissante série de modèles de langage. Qwen2 représente un bond en avant significatif, bénéficiant d'avancées de pointe qui pourraient potentiellement le positionner comme la meilleure alternative au célèbre Meta. Llama 3 modèle. Dans cette plongée technique approfondie, nous explorerons les fonctionnalités clés, les tests de performances et les techniques innovantes qui font de Qwen2 un formidable concurrent dans le domaine des grands modèles de langage (LLM).

Mise à l'échelle : présentation de la gamme de modèles Qwen2

Au cœur de Qwen2 se trouve une gamme diversifiée de modèles adaptés pour répondre à diverses demandes de calcul. La série comprend cinq tailles de modèles distinctes : Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B et le produit phare Qwen2-72B. Cette gamme d'options s'adresse à un large éventail d'utilisateurs, depuis ceux disposant de ressources matérielles modestes jusqu'à ceux ayant accès à une infrastructure informatique de pointe.

L'une des fonctionnalités les plus remarquables de Qwen2 est ses capacités multilingues. Alors que le précédent Qwen1.5 modèle excellait en anglais et en chinois, Qwen2 a été formé sur des données couvrant un nombre impressionnant de 27 langues supplémentaires. Ce programme de formation multilingue comprend des langues de diverses régions telles que l'Europe occidentale, l'Europe orientale et centrale, le Moyen-Orient, l'Asie orientale et l'Asie du Sud.

Tableau répertoriant les langues prises en charge par les modèles Qwen2, classées par régions

Langues prises en charge par les modèles Qwen2, classées par régions géographiques

En élargissant son répertoire linguistique, Qwen2 démontre une capacité exceptionnelle à comprendre et à générer du contenu dans un large éventail de langues, ce qui en fait un outil inestimable pour les applications mondiales et la communication interculturelle.

 

Tableau comparant les modèles Qwen2 par paramètres, paramètres non intégrés, GQA, intégration de liens et longueur de contexte

Spécifications des modèles Qwen2, y compris les paramètres, le GQA et la longueur du contexte.

Aborder le changement de code : un défi multilingue

Dans les contextes multilingues, le phénomène de changement de code – la pratique consistant à alterner entre différentes langues au sein d’une même conversation ou d’un même énoncé – est un phénomène courant. Qwen2 a été méticuleusement formé pour gérer les scénarios de changement de code, réduisant considérablement les problèmes associés et garantissant des transitions fluides entre les langues.

Les évaluations utilisant des invites qui induisent généralement un changement de code ont confirmé l'amélioration substantielle de Qwen2 dans ce domaine, témoignage de l'engagement d'Alibaba à fournir un modèle linguistique véritablement multilingue.

Exceller en codage et en mathématiques

Qwen2 possède des capacités remarquables dans les domaines du codage et des mathématiques, domaines qui posent traditionnellement des défis aux modèles de langage. En exploitant de nombreux ensembles de données de haute qualité et des méthodologies de formation optimisées, Qwen2-72B-Instruct, la variante optimisée pour les instructions du modèle phare, présente des performances exceptionnelles dans la résolution de problèmes mathématiques et de tâches de codage dans divers langages de programmation.

Étendre la compréhension du contexte

L'une des fonctionnalités les plus impressionnantes de Qwen2 est sa capacité à comprendre et à traiter des séquences contextuelles étendues. Alors que la plupart des modèles de langage ont du mal avec le texte long, les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct ont été conçus pour gérer des longueurs de contexte allant jusqu'à 128 XNUMX jetons.

Cette capacité remarquable change la donne pour les applications qui exigent une compréhension approfondie de documents longs, tels que des contrats juridiques, des documents de recherche ou des manuels techniques denses. En traitant efficacement des contextes étendus, Qwen2 peut fournir des réponses plus précises et plus complètes, ouvrant ainsi de nouvelles frontières dans le traitement du langage naturel.

Graphique montrant la précision de la récupération des faits des modèles Qwen2 dans différentes longueurs de contexte et profondeurs de documents

Précision des modèles Qwen2 dans la récupération de faits à partir de documents sur différentes longueurs de contexte et profondeurs de documents.

Ce graphique montre la capacité des modèles Qwen2 à récupérer des faits à partir de documents de différentes longueurs et profondeurs de contexte.

Innovations architecturales : attention aux requêtes de groupe et intégrations optimisées

Sous le capot, Qwen2 intègre plusieurs innovations architecturales qui contribuent à ses performances exceptionnelles. L’une de ces innovations est l’adoption de Group Query Attention (GQA) dans toutes les tailles de modèles. GQA offre des vitesses d'inférence plus rapides et une utilisation réduite de la mémoire, rendant Qwen2 plus efficace et accessible à une gamme plus large de configurations matérielles.

De plus, Alibaba a optimisé les intégrations pour les modèles plus petits de la série Qwen2. En liant les intégrations, l'équipe a réussi à réduire l'empreinte mémoire de ces modèles, permettant leur déploiement sur du matériel moins puissant tout en conservant des performances de haute qualité.

Benchmarking Qwen2 : des modèles de pointe surperformants

Qwen2 affiche des performances remarquables sur un large éventail de critères de référence. Des évaluations comparatives révèlent que le Qwen2-72B, le plus grand modèle de la série, surpasse ses principaux concurrents tels que le Llama-3-70B dans des domaines critiques, notamment la compréhension du langage naturel, l'acquisition de connaissances, la maîtrise du codage, les compétences mathématiques et les capacités multilingues.

Graphiques comparant Qwen2-72B-Instruct et Llama3-70B-Instruct en codage dans plusieurs langages de programmation et en mathématiques dans différents examens

Qwen2-72B-Instruct versus Llama3-70B-Instruct en matière de codage et de performances mathématiques

Malgré moins de paramètres que son prédécesseur, Qwen1.5-110B, Qwen2-72B présente des performances supérieures, ce qui témoigne de l'efficacité des ensembles de données méticuleusement organisés et des méthodologies de formation optimisées d'Alibaba.

Sécurité et responsabilité : s'aligner sur les valeurs humaines

Qwen2-72B-Instruct a été rigoureusement évalué pour sa capacité à traiter les requêtes potentiellement dangereuses liées aux activités illégales, à la fraude, à la pornographie et aux violations de la vie privée. Les résultats sont encourageants : Qwen2-72B-Instruct fonctionne de manière comparable au modèle très apprécié GPT-4 en termes de sécurité, présentant des proportions de réponses nocives nettement inférieures à celles d'autres grands modèles comme Mistral-8x22B.

Cette réalisation souligne l'engagement d'Alibaba à développer des systèmes d'IA qui s'alignent sur les valeurs humaines, garantissant que Qwen2 est non seulement puissant mais également digne de confiance et responsable.

Licences et engagement Open Source

Dans une démarche qui amplifie encore l'impact de Qwen2, Alibaba a adopté une approche open source en matière de licence. Alors que Qwen2-72B et ses modèles optimisés pour les instructions conservent la licence Qianwen d'origine, les modèles restants (Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B et Qwen2-57B-A14B) sont sous licence permissive Apache 2.0. .

Cette ouverture accrue devrait accélérer l’application et l’utilisation commerciale des modèles Qwen2 dans le monde entier, favorisant ainsi la collaboration et l’innovation au sein de la communauté mondiale de l’IA.

Utilisation et mise en œuvre

L'utilisation des modèles Qwen2 est simple, grâce à leur intégration avec des frameworks populaires tels que Étreindre le visage. Voici un exemple d'utilisation de Qwen2-7B-Chat-beta pour l'inférence :

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Cet extrait de code montre comment configurer et générer du texte à l'aide du modèle Qwen2-7B-Chat. L'intégration avec Étreindre le visage le rend accessible et facile à expérimenter.

Qwen2 vs Llama 3 : une analyse comparative

Alors que Qwen2 et Le lama de Meta 3 sont tous deux de formidables modèles linguistiques, ils présentent des atouts et des compromis distincts.

Tableau de comparaison des performances de Qwen2-72B, Llama3-70B, Mixtral-8x22B et Qwen1.5-110B sur plusieurs benchmarks

Un tableau comparatif des performances de Qwen2-72B, Llama3-70B, Mixtral-8x22B et Qwen1.5-110B sur divers benchmarks, notamment MMLU, MMLU-Pro, GPQA et autres.

Voici une analyse comparative pour vous aider à comprendre leurs principales différences :

Capacités multilingues: Qwen2 détient un net avantage en termes de support multilingue. Sa formation sur les données couvrant 27 langues supplémentaires, au-delà de l'anglais et du chinois, permet à Qwen2 d'exceller dans la communication interculturelle et les scénarios multilingues. En revanche, les capacités multilingues de Llama 3 sont moins prononcées, ce qui limite potentiellement son efficacité dans divers contextes linguistiques.

Maîtrise du codage et des mathématiques: Qwen2 et Llama 3 démontrer des capacités impressionnantes en matière de codage et de mathématiques. Cependant, Qwen2-72B-Instruct semble avoir un léger avantage, en raison de sa formation rigoureuse sur des ensembles de données étendus et de haute qualité dans ces domaines. L'accent mis par Alibaba sur l'amélioration des capacités de Qwen2 dans ces domaines pourrait lui donner un avantage pour les applications spécialisées impliquant le codage ou la résolution de problèmes mathématiques.

Compréhension du contexte long: Les modèles Qwen2-7B-Instruct et Qwen2-72B-Instruct offrent une capacité impressionnante à gérer des longueurs de contexte allant jusqu'à 128 3 jetons. Cette fonctionnalité est particulièrement utile pour les applications qui nécessitent une compréhension approfondie de documents longs ou de matériaux techniques denses. Llama 2, bien que capable de traiter de longues séquences, pourrait ne pas égaler les performances de QwenXNUMX dans ce domaine spécifique.

Alors que Qwen2 et Llama 3 affichent des performances de pointe, la gamme diversifiée de modèles de Qwen2, allant de 0.5B à 72B de paramètres, offre une plus grande flexibilité et évolutivité. Cette polyvalence permet aux utilisateurs de choisir la taille de modèle qui convient le mieux à leurs ressources informatiques et à leurs exigences de performances. De plus, les efforts continus d'Alibaba pour adapter le Qwen2 à des modèles plus grands pourraient encore améliorer ses capacités, dépassant potentiellement le Llama 3 à l'avenir.

Déploiement et intégration : rationaliser l'adoption de Qwen2

Pour faciliter l'adoption et l'intégration généralisées de Qwen2, Alibaba a pris des mesures proactives pour garantir un déploiement transparent sur diverses plates-formes et cadres. L'équipe Qwen a collaboré étroitement avec de nombreux projets et organisations tiers, permettant à Qwen2 d'être exploité en conjonction avec un large éventail d'outils et de frameworks.

Réglage fin et quantification: Des projets tiers tels que Axolotl, Llama-Factory, Firefly, Swift et XTuner ont été optimisés pour prendre en charge le réglage fin des modèles Qwen2, permettant aux utilisateurs d'adapter les modèles à leurs tâches et ensembles de données spécifiques. De plus, des outils de quantification comme AutoGPTQ, AutoAWQ, et Neural Compressor ont été adaptés pour fonctionner avec Qwen2, facilitant ainsi un déploiement efficace sur des appareils aux ressources limitées.

Déploiement et inférence: Les modèles Qwen2 peuvent être déployés et servis à l'aide de divers frameworks, notamment vLLM, SGL, SkyPilot, TensorRT-LLM, OuvrirVino, et TGI. Ces frameworks offrent des pipelines d'inférence optimisés, permettant un déploiement efficace et évolutif de Qwen2 dans les environnements de production.

Plateformes API et exécution locale: Pour les développeurs cherchant à intégrer Qwen2 dans leurs applications, les plateformes API telles que Together, Fireworks et OpenRouter offrent un accès pratique aux capacités des modèles. Alternativement, l'exécution locale est prise en charge via des frameworks tels que MLX, Llama.cpp, Ollama, et LM Studio, permettant aux utilisateurs d'exécuter Qwen2 sur leurs machines locales tout en gardant le contrôle sur la confidentialité et la sécurité des données.

Cadres d'agent et RAG: La prise en charge de Qwen2 pour l'utilisation des outils et les capacités des agents est renforcée par des frameworks tels que LamaIndex, CrewAI et OuvrirDevin. Ces frameworks permettent la création d'agents d'IA spécialisés et l'intégration de Qwen2 dans génération augmentée par récupération (RAG) pipelines, élargissant ainsi la gamme d’applications et de cas d’utilisation.

Regard vers l’avenir : développements futurs et opportunités

La vision d'Alibaba pour Qwen2 s'étend bien au-delà de la version actuelle. L’équipe forme activement des modèles plus grands pour explorer les frontières de la mise à l’échelle des modèles, complétée par des efforts continus de mise à l’échelle des données. En outre, des plans sont en cours pour étendre Qwen2 au domaine de l’IA multimodale, permettant l’intégration des capacités de compréhension visuelle et audio.

Alors que l'écosystème de l'IA open source continue de prospérer, Qwen2 jouera un rôle central, servant de ressource puissante pour les chercheurs, les développeurs et les organisations cherchant à faire progresser l'état de l'art en matière de traitement du langage naturel et d'intelligence artificielle.

J'ai passé les cinq dernières années à m'immerger dans le monde fascinant du Machine Learning et du Deep Learning. Ma passion et mon expertise m'ont amené à contribuer à plus de 50 projets de génie logiciel divers, avec un accent particulier sur l'IA/ML. Ma curiosité continue m'a également attiré vers le traitement automatique du langage naturel, un domaine que j'ai hâte d'explorer davantage.