私達と接続

Artificial Intelligence

Qwen2 – アリババの最新の多言語モデルは、Llama 3 のように SOTA に挑戦します

mm
更新中 on
Qwen1.5からQwen2への進化

数ヶ月の期待の後、 アリババの Qwen チームがついに Qwen2 を発表 – 強力な言語モデルシリーズの次の進化形。Qwen2は大きな飛躍を象徴しており、Metaの有名な言語モデルに代わる最良の選択肢となる可能性のある最先端の進歩を誇っています。 ラマ3 モデル。この技術的な詳細では、Qwen2 を大規模言語モデル (LLM) の分野で強力な候補にしている主要な機能、パフォーマンス ベンチマーク、革新的な手法について説明します。

スケールアップ: Qwen2 モデルラインナップのご紹介

の中心に クウェン2 さまざまな計算ニーズを満たすようにカスタマイズされた多様なモデルが揃っています。このシリーズには、Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B、およびフラッグシップのQwen2-72BというXNUMXつの異なるモデル サイズがあります。この幅広いオプションは、適度なハードウェア リソースを持つユーザーから最先端の計算インフラストラクチャにアクセスできるユーザーまで、幅広いユーザーのニーズに対応します。

Qwen2 の傑出した機能の XNUMX つは、多言語機能です。一方、以前の クウェン1.5 モデルは英語と中国語で優れた性能を発揮しましたが、Qwen2 はさらに 27 言語に及ぶデータでトレーニングされています。この多言語トレーニング レジメンには、西ヨーロッパ、東ヨーロッパ、中央ヨーロッパ、中東、東アジア、南アジアなど、さまざまな地域の言語が含まれています。

Qwen2 モデルでサポートされている言語を地域別に分類した表

Qwen2 モデルでサポートされている言語(地理的地域別に分類)

Qwen2 は、言語レパートリーを拡大することで、幅広い言語のコンテンツを理解し、生成する優れた能力を発揮し、グローバルなアプリケーションや異文化間のコミュニケーションにとって非常に貴重なツールとなっています。

 

パラメータ、非埋め込みパラメータ、GQA、タイ埋め込み、およびコンテキスト長ごとに Qwen2 モデルを比較した表

パラメーター、GQA、コンテキストの長さを含む Qwen2 モデルの仕様。

コードスイッチングへの対応: 多言語の課題

多言語のコンテキストでは、コードスイッチングという現象、つまり 2 つの会話または発話内で異なる言語を切り替える習慣がよく発生します。 QwenXNUMX は、コード切り替えシナリオを処理できるよう細心の注意を払ってトレーニングされており、関連する問題を大幅に軽減し、言語間のスムーズな移行を保証します。

通常、コードスイッチングを誘発するプロンプトを使用した評価により、この領域における Qwen2 の大幅な改善が確認され、これは Alibaba が真に多言語の言語モデルを提供するという取り組みの証です。

コーディングと数学に秀でる

Qwen2 は、従来言語モデルにとって課題となっていたコーディングと数学の領域で優れた能力を発揮します。広範囲にわたる高品質のデータセットと最適化されたトレーニング方法論を活用することで、フラッグシップ モデルの命令調整版である Qwen2-72B-Instruct は、さまざまなプログラミング言語で数学の問題を解いたり、コーディング タスクを実行したりする上で優れたパフォーマンスを発揮します。

文脈理解の拡張

Qwen2 の最も印象的な機能の 2 つは、拡張されたコンテキスト シーケンスを理解して処理できる機能です。ほとんどの言語モデルは長い形式のテキストに対応できませんが、Qwen7-2B-Instruct および Qwen72-128B-Instruct モデルは、最大 XNUMXK トークンのコンテキスト長を処理できるように設計されています。

この優れた機能は、法的な契約書、研究論文、または密度の高い技術マニュアルなど、長い文書の詳細な理解を必要とするアプリケーションにとって画期的なものです。拡張されたコンテキストを効果的に処理することで、Qwen2 はより正確で包括的な応答を提供し、自然言語処理の新たな境地を切り開きます。

さまざまなコンテキストの長さとドキュメントの深さにわたる Qwen2 モデルのファクト検索精度を示すグラフ

さまざまなコンテキストの長さとドキュメントの深さにわたるドキュメントから事実を取得する際の Qwen2 モデルの精度。

このグラフは、さまざまなコンテキストの長さと深さのドキュメントから事実を取得する Qwen2 モデルの能力を示しています。

アーキテクチャの革新: グループクエリアテンションと最適化された埋め込み

Qwen2 には、その優れたパフォーマンスに貢献するいくつかのアーキテクチャ上の革新が組み込まれています。そのような革新の 2 つは、すべてのモデル サイズにわたるグループ クエリ アテンション (GQA) の採用です。 GQA は推論速度の高速化とメモリ使用量の削減を実現し、QwenXNUMX をより効率的にし、より幅広いハードウェア構成にアクセスできるようにします。

さらに、Alibaba は、Qwen2 シリーズの小型モデル向けに埋め込みを最適化しました。チームは、エンベディングを結合することで、これらのモデルのメモリ使用量を削減することに成功し、高品質のパフォーマンスを維持しながら、それほど強力ではないハードウェアへの展開を可能にしました。

Qwen2 のベンチマーク: 最先端のモデルを上回るパフォーマンス

Qwen2 は、さまざまなベンチマークにわたって優れたパフォーマンスを発揮します。比較評価の結果、シリーズ最大のモデルである Qwen2-72B が、自然言語理解、知識獲得、コーディング熟練度、数学的スキル、多言語能力などの重要な領域で Llama-3-70B などの主要な競合製品を上回っていることが明らかになりました。

Qwen2-72B-Instruct と Llama3-70B-Instruct を複数のプログラミング言語でのコーディングと、さまざまな試験での数学で比較したグラフ

コーディングと数学のパフォーマンスにおける Qwen2-72B-Instruct と Llama3-70B-Instruct の比較

前世代の Qwen1.5-110B よりもパラメーターが少ないにもかかわらず、Qwen2-72B は優れたパフォーマンスを示し、これはアリババの細心の注意を払って厳選されたデータセットと最適化されたトレーニング方法論の有効性の証です。

安全と責任:人間の価値観との整合

Qwen2-72B-Instruct は、違法行為、詐欺、ポルノ、プライバシー侵害に関連する潜在的に有害なクエリを処理する能力について厳密に評価されています。結果は有望です。Qwen2-72B-Instruct は安全性の点で高く評価されている GPT-4 モデルと同等のパフォーマンスを示し、Mistral-8x22B などの他の大型モデルと比較して有害な反応の割合が大幅に低いことが示されています。

この成果は、人間の価値観に沿った AI システムの開発に対するアリババの取り組みを強調し、Qwen2 が強力であるだけでなく、信頼性と責任も兼ね備えていることを保証します。

ライセンスとオープンソースへの取り組み

Qwen2 の影響をさらに拡大する動きとして、Alibaba はライセンスにオープンソース アプローチを採用しました。Qwen2-72B とその命令調整モデルは元の Qianwen ライセンスを保持していますが、残りのモデル (Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B) は、許容度の高い Apache 2.0 ライセンスの下でライセンスされています。

このオープン性の強化により、世界中で Qwen2 モデルの応用と商業利用が加速し、世界的な AI コミュニティ内でのコラボレーションとイノベーションが促進されることが期待されます。

使用法と実装

Qwen2モデルの使用は、次のような一般的なフレームワークとの統合により簡単です。 ハグ顔以下は推論に Qwen2-7B-Chat-beta を使用する例です。

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

このコードスニペットは、Qwen2-7B-Chatモデルを使用してテキストを設定および生成する方法を示しています。 ハグ顔 アクセスしやすく、簡単に実験できるようになります。

Qwen2 対 Llama 3: 比較分析

一方、Qwen2 と メタのラマ 3 どちらも強力な言語モデルですが、それぞれ異なる長所とトレードオフを示します。

複数のベンチマークにおける Qwen2-72B、Llama3-70B、Mixtral-8x22B、Qwen1.5-110B のパフォーマンス比較チャート

MMLU、MMLU-Pro、GPQA などのさまざまなベンチマークにおける Qwen2-72B、Llama3-70B、Mixtral-8x22B、Qwen1.5-110B の比較パフォーマンス チャート。

これらの主な違いを理解するのに役立つ比較分析を次に示します。

多言語機能: Qwen2 は多言語サポートの点で明らかな利点を持っています。英語と中国語以外にも 27 の追加言語にわたるデータに関するトレーニングにより、Qwen2 は異文化コミュニケーションや多言語シナリオで優れた能力を発揮できるようになります。対照的に、Llama 3 の多言語機能はそれほど顕著ではなく、多様な言語コンテキストでの有効性が制限される可能性があります。

コーディングと数学の能力: Qwen2と ラマ3 優れたコーディング能力と数学的能力を実証します。ただし、Qwen2-72B-Instruct には、これらのドメインの広範で高品質なデータセットに対する厳密なトレーニングがあるため、わずかに優位性があるようです。アリババがこれらの分野での Qwen2 の機能強化に注力していることで、コーディングや数学的問題解決を伴う特殊なアプリケーションに利点がもたらされる可能性があります。

長い文脈の理解Qwen2-7B-Instruct および Qwen2-72B-Instruct モデルは、最大 128K トークンのコンテキスト長を処理できる優れた能力を誇ります。この機能は、長いドキュメントや密度の高い技術資料を詳細に理解する必要があるアプリケーションに特に役立ちます。Llama 3 は長いシーケンスを処理できますが、この特定の領域では Qwen2 のパフォーマンスに匹敵しない可能性があります。

Qwen2 と Llama 3 はどちらも最先端のパフォーマンスを発揮しますが、2B から 0.5B のパラメータに及ぶ Qwen72 の多様なモデル ラインアップは、より高い柔軟性と拡張性を提供します。この汎用性により、ユーザーは計算リソースとパフォーマンス要件に最適なモデル サイズを選択できます。さらに、Alibaba は Qwen2 をより大きなモデルに拡張する継続的な取り組みを行っており、その機能をさらに強化して、将来的には Llama 3 を上回る可能性もあります。

導入と統合: Qwen2 導入の合理化

Qwen2 の広範な採用と統合を促進するために、Alibaba はさまざまなプラットフォームやフレームワーク間でのシームレスな展開を確実にするための積極的な措置を講じてきました。Qwen チームは多数のサードパーティ プロジェクトや組織と緊密に連携し、Qwen2 を幅広いツールやフレームワークと組み合わせて活用できるようにしています。

微調整と量子化: Axolotl、Llama-Factory、Firefly、Swift、XTuner などのサードパーティ プロジェクトは、Qwen2 モデルの微調整をサポートするように最適化されており、ユーザーがモデルを特定のタスクやデータセットに合わせて調整できるようになります。さらに、次のような量子化ツール AutoGPTQ, AutoAWQ、Neural Compressor は Qwen2 で動作するように適応されており、リソースが制限されたデバイスでの効率的な展開が容易になります。

展開と推論: Qwen2 モデルは、次のようなさまざまなフレームワークを使用してデプロイおよび提供できます。 vLLM、SGL、スカイパイロット、 TensorRT-LLM, OpenVino、TGI などがあります。これらのフレームワークは最適化された推論パイプラインを提供し、実稼働環境で Qwen2 を効率的かつスケーラブルに導入することを可能にします。

API プラットフォームとローカル実行: Qwen2 をアプリケーションに統合しようとしている開発者にとって、Togetter、Fireworks、OpenRouter などの API プラットフォームは、モデルの機能への便利なアクセスを提供します。あるいは、ローカル実行は、MLX、Llama.cpp、 オラマ、および LM Studio を使用すると、ユーザーはデータのプライバシーとセキュリティの制御を維持しながら、ローカル マシンで Qwen2 を実行できます。

エージェントとRAGフレームワーク: Qwen2 のツール使用とエージェント機能のサポートは、次のようなフレームワークによって強化されています。 ラマインデックス、CrewAI、および オープンデビンこれらのフレームワークにより、特殊なAIエージェントの作成とQwen2の統合が可能になります。 検索拡張世代 (RAG) パイプラインにより、アプリケーションとユースケースの範囲が拡大します。

将来を見据えて: 将来の発展と機会

Alibaba の Qwen2 に対するビジョンは、現在のリリースをはるかに超えています。チームは、モデル スケーリングの最前線を探索するために、より大規模なモデルを積極的にトレーニングしており、継続的なデータ スケーリングの取り組みによって補完されています。さらに、Qwen2 をマルチモーダル AI の領域に拡張し、視覚と音声の理解機能の統合を可能にする計画が進行中です。

オープンソース AI エコシステムが成長を続ける中、Qwen2 は、自然言語処理と人工知能の最先端技術の進歩を目指す研究者、開発者、組織にとって強力なリソースとして極めて重要な役割を果たします。

私は過去 50 年間、機械学習と深層学習の魅力的な世界に没頭してきました。 私の情熱と専門知識により、特に AI/ML に重点を置いた XNUMX を超える多様なソフトウェア エンジニアリング プロジェクトに貢献してきました。 私の継続的な好奇心は、私がさらに探求したいと思っている分野である自然言語処理にも引き寄せられました。