potongan Qwen2 - Model Bahasa Multibahasa Terbaru Alibaba Menantang SOTA seperti Llama 3 - Unite.AI
Terhubung dengan kami

Kecerdasan Buatan

Qwen2 – Model Bahasa Multibahasa Terbaru Alibaba Menantang SOTA seperti Llama 3

mm
Updated on
evolusi dari Qwen1.5 ke Qwen2

Setelah berbulan-bulan penantian, Tim Qwen Alibaba akhirnya meluncurkan Qwen2 – evolusi berikutnya dari seri model bahasa mereka yang kuat. Qwen2 mewakili lompatan maju yang signifikan, menawarkan kemajuan mutakhir yang berpotensi memposisikannya sebagai alternatif terbaik untuk Meta yang terkenal. Lama 3 model. Dalam pendalaman teknis ini, kita akan mengeksplorasi fitur-fitur utama, tolok ukur kinerja, dan teknik inovatif yang menjadikan Qwen2 pesaing tangguh dalam bidang model bahasa besar (LLM).

Peningkatan: Memperkenalkan Jajaran Model Qwen2

Inti dari Qwen2 terdapat beragam jajaran model yang disesuaikan untuk memenuhi berbagai tuntutan komputasi. Seri ini mencakup lima ukuran model berbeda: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, dan Qwen2-72B andalan. Berbagai pilihan ini melayani spektrum pengguna yang luas, mulai dari mereka yang memiliki sumber daya perangkat keras sederhana hingga mereka yang memiliki akses ke infrastruktur komputasi mutakhir.

Salah satu fitur menonjol Qwen2 adalah kemampuan multibahasanya. Sedangkan sebelumnya Qwen1.5 model yang unggul dalam bahasa Inggris dan Cina, Qwen2 telah dilatih pada data yang mencakup 27 bahasa tambahan yang mengesankan. Regimen pelatihan multibahasa ini mencakup bahasa dari berbagai wilayah seperti Eropa Barat, Eropa Timur dan Tengah, Timur Tengah, Asia Timur, dan Asia Selatan.

Tabel berisi daftar bahasa yang didukung oleh model Qwen2, dikategorikan berdasarkan wilayah

Bahasa yang didukung oleh model Qwen2, dikategorikan berdasarkan wilayah geografis

Dengan memperluas repertoar linguistiknya, Qwen2 menunjukkan kemampuan luar biasa untuk memahami dan menghasilkan konten dalam berbagai bahasa, menjadikannya alat yang sangat berharga untuk aplikasi global dan komunikasi lintas budaya.

 

Tabel membandingkan model Qwen2 berdasarkan parameter, parameter non-embedding, GQA, tie embedding, dan panjang konteks

Spesifikasi Model Qwen2 termasuk parameter, GQA, dan panjang konteks.

Mengatasi Alih Kode: Tantangan Multibahasa

Dalam konteks multibahasa, fenomena alih kode – yaitu praktik pergantian bahasa dalam satu percakapan atau ucapan – merupakan hal yang lumrah. Qwen2 telah dilatih dengan cermat untuk menangani skenario peralihan kode, secara signifikan mengurangi masalah terkait dan memastikan kelancaran transisi antar bahasa.

Evaluasi yang menggunakan petunjuk yang biasanya menyebabkan alih kode telah mengkonfirmasi peningkatan substansial Qwen2 dalam domain ini, sebuah bukti komitmen Alibaba untuk menghadirkan model bahasa yang benar-benar multibahasa.

Unggul dalam Coding dan Matematika

Qwen2 memiliki kemampuan luar biasa dalam bidang pengkodean dan matematika, bidang yang secara tradisional menimbulkan tantangan bagi model bahasa. Dengan memanfaatkan kumpulan data ekstensif berkualitas tinggi dan metodologi pelatihan yang dioptimalkan, Qwen2-72B-Instruct, varian model andalan yang disesuaikan dengan instruksi, menunjukkan kinerja luar biasa dalam memecahkan masalah matematika dan tugas pengkodean di berbagai bahasa pemrograman.

Memperluas Pemahaman Konteks

Salah satu fitur paling mengesankan dari Qwen2 adalah kemampuannya untuk memahami dan memproses rangkaian konteks yang diperluas. Meskipun sebagian besar model bahasa kesulitan dengan teks berbentuk panjang, model Qwen2-7B-Instruct dan Qwen2-72B-Instruct telah dirancang untuk menangani panjang konteks hingga 128 ribu token.

Kemampuan luar biasa ini merupakan terobosan bagi aplikasi yang menuntut pemahaman mendalam tentang dokumen yang panjang, seperti kontrak hukum, makalah penelitian, atau manual teknis yang padat. Dengan memproses konteks yang diperluas secara efektif, Qwen2 dapat memberikan respons yang lebih akurat dan komprehensif, membuka batasan baru dalam pemrosesan bahasa alami.

Bagan yang menunjukkan keakuratan pengambilan fakta model Qwen2 di berbagai panjang konteks dan kedalaman dokumen

Akurasi model Qwen2 dalam mengambil fakta dari dokumen dalam berbagai panjang konteks dan kedalaman dokumen.

Bagan ini menunjukkan kemampuan model Qwen2 untuk mengambil fakta dari dokumen dengan berbagai konteks panjang dan kedalaman.

Inovasi Arsitektur: Perhatian Kueri Grup dan Penyematan yang Dioptimalkan

Di balik terpalnya, Qwen2 menggabungkan beberapa inovasi arsitektur yang berkontribusi terhadap kinerjanya yang luar biasa. Salah satu inovasi tersebut adalah penerapan Group Query Attention (GQA) di semua ukuran model. GQA menawarkan kecepatan inferensi yang lebih cepat dan pengurangan penggunaan memori, menjadikan Qwen2 lebih efisien dan dapat diakses oleh konfigurasi perangkat keras yang lebih luas.

Selain itu, Alibaba telah mengoptimalkan penyematan untuk model yang lebih kecil di seri Qwen2. Dengan menggabungkan penyematan, tim telah berhasil mengurangi jejak memori model-model ini, memungkinkan penerapannya pada perangkat keras yang kurang kuat sambil mempertahankan kinerja berkualitas tinggi.

Pembandingan Qwen2: Model Tercanggih yang Berkinerja Lebih Baik

Qwen2 memiliki kinerja luar biasa di beragam tolok ukur. Evaluasi komparatif mengungkapkan bahwa Qwen2-72B, model terbesar dalam seri ini, mengungguli pesaing terkemuka seperti Llama-3-70B di bidang-bidang penting, termasuk pemahaman bahasa alami, perolehan pengetahuan, kemahiran coding, keterampilan matematika, dan kemampuan multibahasa.

Bagan yang membandingkan Qwen2-72B-Instruct dan Llama3-70B-Instruct dalam pengkodean di beberapa bahasa pemrograman dan matematika di berbagai ujian

Qwen2-72B-Instruct versus Llama3-70B-Instruct dalam coding dan kinerja matematika

Meskipun memiliki parameter yang lebih sedikit dibandingkan pendahulunya, Qwen1.5-110B, Qwen2-72B menunjukkan kinerja yang unggul, sebuah bukti kemanjuran kumpulan data Alibaba yang dikurasi dengan cermat dan metodologi pelatihan yang dioptimalkan.

Keamanan dan Tanggung Jawab: Selaras dengan Nilai-Nilai Kemanusiaan

Qwen2-72B-Instruct telah dievaluasi secara ketat karena kemampuannya menangani pertanyaan yang berpotensi membahayakan terkait aktivitas ilegal, penipuan, pornografi, dan pelanggaran privasi. Hasilnya menggembirakan: Qwen2-72B-Instruct memiliki kinerja yang sebanding dengan model GPT-4 yang sangat dihormati dalam hal keselamatan, menunjukkan proporsi respons berbahaya yang jauh lebih rendah dibandingkan model besar lainnya seperti Mistral-8x22B.

Pencapaian ini menggarisbawahi komitmen Alibaba dalam mengembangkan sistem AI yang selaras dengan nilai-nilai kemanusiaan, memastikan bahwa Qwen2 tidak hanya kuat namun juga dapat dipercaya dan bertanggung jawab.

Lisensi dan Komitmen Sumber Terbuka

Dalam sebuah langkah yang semakin memperkuat dampak Qwen2, Alibaba telah mengadopsi pendekatan sumber terbuka terhadap perizinan. Meskipun Qwen2-72B dan model yang disesuaikan dengan instruksi tetap mempertahankan Lisensi Qianwen asli, model lainnya – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, dan Qwen2-57B-A14B – telah dilisensikan di bawah lisensi Apache 2.0 yang permisif .

Peningkatan keterbukaan ini diharapkan dapat mempercepat penerapan dan penggunaan komersial model Qwen2 di seluruh dunia, serta mendorong kolaborasi dan inovasi dalam komunitas AI global.

Penggunaan dan Implementasi

Penggunaan model Qwen2 sangatlah mudah, berkat integrasinya dengan kerangka kerja populer seperti Wajah Memeluk. Berikut adalah contoh penggunaan Qwen2-7B-Chat-beta untuk inferensi:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Cuplikan kode ini menunjukkan cara menyiapkan dan menghasilkan teks menggunakan model Qwen2-7B-Chat. Integrasi dengan Wajah Memeluk membuatnya dapat diakses dan mudah untuk bereksperimen.

Qwen2 vs. Llama 3: Analisis Perbandingan

Sedangkan Qwen2 dan Llama Meta 3 keduanya merupakan model bahasa yang tangguh, keduanya menunjukkan kekuatan dan kelebihan yang berbeda.

Bagan perbandingan kinerja Qwen2-72B, Llama3-70B, Mixtral-8x22B, dan Qwen1.5-110B di berbagai tolok ukur

Bagan kinerja komparatif Qwen2-72B, Llama3-70B, Mixtral-8x22B, dan Qwen1.5-110B di berbagai tolok ukur termasuk MMLU, MMLU-Pro, GPQA, dan lainnya.

Berikut analisis komparatif untuk membantu Anda memahami perbedaan utamanya:

Kemampuan Multibahasa: Qwen2 memiliki keunggulan yang jelas dalam hal dukungan multibahasa. Pelatihan data yang mencakup 27 bahasa tambahan, selain bahasa Inggris dan Cina, memungkinkan Qwen2 unggul dalam komunikasi lintas budaya dan skenario multibahasa. Sebaliknya, kemampuan multibahasa Llama 3 kurang menonjol, sehingga berpotensi membatasi efektivitasnya dalam konteks linguistik yang beragam.

Kemahiran coding dan matematika: Baik Qwen2 dan Lama 3 menunjukkan kemampuan pengkodean dan matematika yang mengesankan. Namun, Qwen2-72B-Instruct tampaknya memiliki sedikit keunggulan, karena pelatihannya yang ketat terhadap kumpulan data ekstensif dan berkualitas tinggi di domain ini. Fokus Alibaba dalam meningkatkan kemampuan Qwen2 di bidang ini dapat memberikan keuntungan untuk aplikasi khusus yang melibatkan pengkodean atau pemecahan masalah matematika.

Pemahaman Konteks Panjang: Model Qwen2-7B-Instruct dan Qwen2-72B-Instruct memiliki kemampuan mengesankan untuk menangani panjang konteks hingga 128 ribu token. Fitur ini sangat berharga untuk aplikasi yang memerlukan pemahaman mendalam tentang dokumen panjang atau materi teknis yang padat. Llama 3, meskipun mampu memproses urutan yang panjang, mungkin tidak menandingi kinerja Qwen2 di area khusus ini.

Meskipun Qwen2 dan Llama 3 menunjukkan performa mutakhir, jajaran model Qwen2 yang beragam, mulai dari parameter 0.5B hingga 72B, menawarkan fleksibilitas dan skalabilitas yang lebih besar. Fleksibilitas ini memungkinkan pengguna memilih ukuran model yang paling sesuai dengan sumber daya komputasi dan persyaratan kinerja mereka. Selain itu, upaya berkelanjutan Alibaba untuk menskalakan Qwen2 ke model yang lebih besar dapat lebih meningkatkan kemampuannya, sehingga berpotensi melampaui Llama 3 di masa depan.

Penerapan dan Integrasi: Menyederhanakan Adopsi Qwen2

Untuk memfasilitasi adopsi dan integrasi Qwen2 secara luas, Alibaba telah mengambil langkah proaktif untuk memastikan penerapan yang lancar di berbagai platform dan kerangka kerja. Tim Qwen telah berkolaborasi erat dengan berbagai proyek dan organisasi pihak ketiga, memungkinkan Qwen2 dimanfaatkan bersama dengan berbagai alat dan kerangka kerja.

Penyempurnaan dan Kuantisasi: Proyek pihak ketiga seperti Axolotl, Llama-Factory, Firefly, Swift, dan XTuner telah dioptimalkan untuk mendukung penyempurnaan model Qwen2, memungkinkan pengguna menyesuaikan model dengan tugas dan kumpulan data spesifik mereka. Selain itu, alat kuantisasi seperti GPTQ Otomatis, AWQ Otomatis, dan Neural Compressor telah diadaptasi untuk bekerja dengan Qwen2, memfasilitasi penerapan yang efisien pada perangkat dengan sumber daya terbatas.

Penerapan dan Inferensi: Model Qwen2 dapat diterapkan dan disajikan menggunakan berbagai kerangka kerja, termasuk vLLM, SGL, SkyPilot, TensorRT-LLM, BukaVino, dan TGI. Kerangka kerja ini menawarkan jalur inferensi yang dioptimalkan, memungkinkan penerapan Qwen2 yang efisien dan terukur di lingkungan produksi.

Platform API dan Eksekusi Lokal: Untuk pengembang yang ingin mengintegrasikan Qwen2 ke dalam aplikasi mereka, platform API seperti Together, Fireworks, dan OpenRouter menyediakan akses mudah ke kemampuan model. Alternatifnya, eksekusi lokal didukung melalui kerangka kerja seperti MLX, Llama.cpp, Ollama, dan LM Studio, memungkinkan pengguna menjalankan Qwen2 di mesin lokal mereka sambil mempertahankan kontrol atas privasi dan keamanan data.

Kerangka Agen dan RAG: Dukungan Qwen2 untuk penggunaan alat dan kemampuan agen didukung oleh kerangka kerja seperti Indeks Llama, KruAI, dan BukaDevin. Kerangka kerja ini memungkinkan pembuatan agen AI khusus dan integrasi Qwen2 ke dalamnya generasi pengambilan-augmented (RAG) pipeline, memperluas jangkauan aplikasi dan kasus penggunaan.

Melihat ke Depan: Perkembangan dan Peluang Masa Depan

Visi Alibaba untuk Qwen2 jauh melampaui rilis saat ini. Tim ini secara aktif melatih model yang lebih besar untuk mengeksplorasi batas-batas penskalaan model, dilengkapi dengan upaya penskalaan data yang berkelanjutan. Selain itu, ada rencana untuk memperluas Qwen2 ke ranah AI multimodal, memungkinkan integrasi kemampuan pemahaman visi dan audio.

Seiring dengan berkembangnya ekosistem AI sumber terbuka, Qwen2 akan memainkan peran penting, berfungsi sebagai sumber daya yang kuat bagi para peneliti, pengembang, dan organisasi yang ingin memajukan kecanggihan dalam pemrosesan bahasa alami dan kecerdasan buatan.

Saya telah menghabiskan lima tahun terakhir membenamkan diri dalam dunia Machine Learning dan Deep Learning yang menakjubkan. Semangat dan keahlian saya telah membuat saya berkontribusi pada lebih dari 50 proyek rekayasa perangkat lunak yang beragam, dengan fokus khusus pada AI/ML. Keingintahuan saya yang berkelanjutan juga menarik saya ke Natural Language Processing, bidang yang ingin saya jelajahi lebih jauh.