დაკავშირება ჩვენთან ერთად

ხელოვნური ინტელექტი

Qwen2 – Alibaba-ს უახლესი მრავალენოვანი ენობრივი მოდელი გამოწვევებს SOTA-ს, როგორიცაა Llama 3

mm
განახლებულია on
ევოლუცია Qwen1.5-დან Qwen2-მდე

თვეების მოლოდინის შემდეგ, Alibaba-ს Qwen-ის გუნდმა საბოლოოდ წარმოადგინა Qwen2 – მათი ძლიერი ენობრივი მოდელების სერიის შემდეგი ევოლუცია. Qwen2 წარმოადგენს მნიშვნელოვან ნახტომს წინ, ამაყობს უახლესი მიღწევებით, რამაც შეიძლება პოტენციურად განათავსოს იგი, როგორც საუკეთესო ალტერნატივა Meta-ს ცნობილი ლამა 3 მოდელი. ამ ტექნიკურ ღრმა ჩაძირვაში ჩვენ შევისწავლით ძირითად მახასიათებლებს, შესრულების ეტალონებს და ინოვაციურ ტექნიკას, რაც Qwen2-ს დიდ კონკურენტად აქცევს დიდი ენობრივი მოდელების (LLM) სფეროში.

მასშტაბირება: წარმოგიდგენთ Qwen2 მოდელების ხაზს

ბირთვში Qwen2 დევს მოდელების მრავალფეროვანი ასორტიმენტი, რომელიც მორგებულია სხვადასხვა გამოთვლითი მოთხოვნების დასაკმაყოფილებლად. სერია მოიცავს ხუთ განსხვავებულ მოდელის ზომას: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B და ფლაგმანი Qwen2-72B. ვარიანტების ეს დიაპაზონი ემსახურება მომხმარებელთა ფართო სპექტრს, მოკრძალებული ტექნიკის რესურსებით დამთავრებული უახლესი გამოთვლითი ინფრასტრუქტურით წვდომით დამთავრებული.

Qwen2-ის ერთ-ერთი გამორჩეული თვისებაა მისი მრავალენოვანი შესაძლებლობები. მიუხედავად იმისა, რომ წინა Qwen1.5 ინგლისურ და ჩინურ ენებზე კარგად გამორჩეული მოდელი Qwen2 გავლილი აქვს ტრეინინგი მონაცემების შესახებ, რომელიც მოიცავს დამატებით 27 ენას. ეს მრავალენოვანი სასწავლო რეჟიმი მოიცავს ენებს სხვადასხვა რეგიონებიდან, როგორიცაა დასავლეთ ევროპა, აღმოსავლეთ და ცენტრალური ევროპა, ახლო აღმოსავლეთი, აღმოსავლეთ აზია და სამხრეთ აზია.

ცხრილი, სადაც მოცემულია Qwen2 მოდელების მიერ მხარდაჭერილი ენები, კატეგორიზებული რეგიონების მიხედვით

Qwen2 მოდელების მიერ მხარდაჭერილი ენები, გეოგრაფიული რეგიონების მიხედვით

თავისი ლინგვისტური რეპერტუარის გაფართოებით, Qwen2 აჩვენებს შინაარსის გაგებისა და გენერირების განსაკუთრებულ უნარს ენების ფართო სპექტრში, რაც მას ფასდაუდებელ ინსტრუმენტად აქცევს გლობალური აპლიკაციებისა და კულტურათაშორისი კომუნიკაციისთვის.

 

ცხრილი, რომელიც ადარებს Qwen2-ის მოდელებს პარამეტრების, ჩაშენებული პარამეტრების, GQA, ჰალსტუხის ჩაშენებისა და კონტექსტის სიგრძის მიხედვით

Qwen2 მოდელების სპეციფიკაციები, მათ შორის პარამეტრები, GQA და კონტექსტის სიგრძე.

მისამართის კოდის შეცვლა: მრავალენოვანი გამოწვევა

მრავალენოვან კონტექსტში, კოდის გადართვის ფენომენი - სხვადასხვა ენების მონაცვლეობის პრაქტიკა ერთი საუბრის ან გამოთქმის ფარგლებში - ჩვეულებრივი მოვლენაა. Qwen2 ზედმიწევნით გაწვრთნილი იყო კოდების გადართვის სცენარების დასამუშავებლად, რაც მნიშვნელოვნად ამცირებს დაკავშირებულ პრობლემებს და უზრუნველყოფს ენებს შორის გლუვი გადასვლის უზრუნველყოფას.

შეფასებებმა მოთხოვნის გამოყენებით, რომლებიც, როგორც წესი, იწვევენ კოდის შეცვლას, დაადასტურა Qwen2-ის მნიშვნელოვანი გაუმჯობესება ამ დომენში, რაც ადასტურებს Alibaba-ს ვალდებულებას წარმოადგინოს მართლაც მრავალენოვანი ენობრივი მოდელი.

ბრწყინვალება კოდირებასა და მათემატიკაში

Qwen2-ს აქვს შესანიშნავი შესაძლებლობები კოდირებისა და მათემატიკის სფეროებში, სფეროები, რომლებიც ტრადიციულად ქმნიან გამოწვევებს ენის მოდელებისთვის. ვრცელი მაღალი ხარისხის მონაცემთა ნაკრებისა და ოპტიმიზებული ტრენინგის მეთოდოლოგიების გამოყენებით, Qwen2-72B-Instruct, ფლაგმანი მოდელის ინსტრუქციებით მორგებული ვარიანტი, ავლენს გამორჩეულ ეფექტურობას მათემატიკური ამოცანების გადაჭრისა და კოდირების ამოცანების სხვადასხვა პროგრამირების ენაზე.

კონტექსტის გაგების გაფართოება

Qwen2-ის ერთ-ერთი ყველაზე შთამბეჭდავი თვისებაა გაფართოებული კონტექსტური თანმიმდევრობების გაგებისა და დამუშავების უნარი. მიუხედავად იმისა, რომ ენობრივი მოდელების უმეტესობა ებრძვის გრძელი ფორმის ტექსტს, Qwen2-7B-Instruct და Qwen2-72B-Instruct მოდელები შემუშავებულია 128K ტოკენამდე კონტექსტის სიგრძეზე.

ეს შესანიშნავი შესაძლებლობა არის თამაშის შეცვლა აპლიკაციებისთვის, რომლებიც ითხოვენ გრძელი დოკუმენტების სიღრმისეულ გაგებას, როგორიცაა იურიდიული კონტრაქტები, კვლევითი ნაშრომები ან მკვრივი ტექნიკური სახელმძღვანელოები. გაფართოებული კონტექსტების ეფექტურად დამუშავებით, Qwen2-ს შეუძლია უზრუნველყოს უფრო ზუსტი და ყოვლისმომცველი პასუხები, ხსნის ახალ საზღვრებს ბუნებრივი ენის დამუშავებაში.

დიაგრამა, რომელიც აჩვენებს Qwen2 მოდელების ფაქტების მოძიების სიზუსტეს სხვადასხვა კონტექსტის სიგრძესა და დოკუმენტის სიღრმეში

Qwen2 მოდელების სიზუსტე დოკუმენტებიდან ფაქტების მოძიებაში სხვადასხვა კონტექსტის სიგრძესა და დოკუმენტის სიღრმეში.

ეს სქემა გვიჩვენებს Qwen2 მოდელების უნარს, მოიძიონ ფაქტები სხვადასხვა კონტექსტის სიგრძისა და სიღრმის დოკუმენტებიდან.

არქიტექტურული ინოვაციები: ჯგუფური შეკითხვის ყურადღება და ოპტიმიზებული ჩაშენებები

ქუდის ქვეშ, Qwen2 აერთიანებს რამდენიმე არქიტექტურულ სიახლეს, რაც ხელს უწყობს მის განსაკუთრებულ შესრულებას. ერთ-ერთი ასეთი ინოვაციაა ჯგუფური შეკითხვის ყურადღების (GQA) მიღება ყველა მოდელის ზომებში. GQA გთავაზობთ უფრო სწრაფ დასკვნის სიჩქარეს და მეხსიერების შემცირებას, რაც Qwen2-ს უფრო ეფექტურს და ხელმისაწვდომს ხდის ტექნიკის კონფიგურაციის უფრო ფართო სპექტრს.

გარდა ამისა, Alibaba-მ მოახდინა ჩაშენების ოპტიმიზაცია Qwen2 სერიის პატარა მოდელებისთვის. ჩაშენების შეერთებით, გუნდმა მოახერხა ამ მოდელების მეხსიერების კვალის შემცირება, რაც საშუალებას მისცემს მათ განთავსდეს ნაკლებად მძლავრ აპარატურაზე მაღალი ხარისხის მუშაობის შენარჩუნებით.

ბენჩმარკინგი Qwen2: აჯობებს თანამედროვე მოდელებს

Qwen2-ს აქვს შესანიშნავი შესრულება სტანდარტების მრავალფეროვან დიაპაზონში. შედარებითი შეფასებები ცხადყოფს, რომ Qwen2-72B, სერიის უდიდესი მოდელი, აჯობებს წამყვან კონკურენტებს, როგორიცაა Llama-3-70B კრიტიკულ სფეროებში, მათ შორის ბუნებრივი ენის გაგება, ცოდნის შეძენა, კოდირების ცოდნა, მათემატიკური უნარები და მრავალენოვანი შესაძლებლობები.

დიაგრამები, რომლებიც ადარებენ Qwen2-72B-Instruct-სა და Llama3-70B-Instruct-ს რამდენიმე პროგრამირების ენაზე კოდირებისას და მათემატიკაში სხვადასხვა გამოცდებში.

Qwen2-72B-Instruct წინააღმდეგ Llama3-70B-Instruct კოდირებისა და მათემატიკის შესრულებაში

მიუხედავად იმისა, რომ Qwen1.5-110B, Qwen2-72B-ზე ნაკლები პარამეტრი აქვს, QwenXNUMX-XNUMXB ავლენს მაღალ ეფექტურობას, რაც მოწმობს Alibaba-ს ზედმიწევნით შემუშავებული მონაცემთა ნაკრებისა და ოპტიმიზებული ტრენინგის მეთოდოლოგიების ეფექტურობაზე.

უსაფრთხოება და პასუხისმგებლობა: ადამიანურ ღირებულებებთან შესაბამისობა

Qwen2-72B-Instruct მკაცრად იქნა შეფასებული მისი შესაძლებლობისთვის, გაუმკლავდეს პოტენციურად მავნე შეკითხვებს, რომლებიც დაკავშირებულია უკანონო ქმედებებთან, თაღლითობასთან, პორნოგრაფიასთან და კონფიდენციალურობის დარღვევასთან. შედეგები დამაიმედებელია: Qwen2-72B-Instruct მუშაობს შედარებით მაღალი ხარისხის GPT-4 მოდელთან უსაფრთხოების თვალსაზრისით, ავლენს მავნე რეაქციების მნიშვნელოვნად დაბალ პროპორციებს სხვა დიდ მოდელებთან შედარებით, როგორიცაა Mistral-8x22B.

ეს მიღწევა ხაზს უსვამს Alibaba-ს ვალდებულებას განავითაროს ხელოვნური ინტელექტის სისტემები, რომლებიც შეესაბამება ადამიანურ ღირებულებებს, რაც უზრუნველყოფს, რომ Qwen2 არა მხოლოდ ძლიერი, არამედ სანდო და პასუხისმგებელია.

ლიცენზირება და ღია წყაროს ვალდებულება

ნაბიჯით, რომელიც კიდევ უფრო აძლიერებს Qwen2-ის გავლენას, Alibaba-მ მიიღო ღია კოდის მიდგომა ლიცენზირებისადმი. მიუხედავად იმისა, რომ Qwen2-72B და მისი ინსტრუქციით მორგებული მოდელები ინარჩუნებენ ორიგინალურ Qianwen ლიცენზიას, დანარჩენი მოდელები - Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B და Qwen2-57B-A14B - ლიცენზირებულია Apache 2.0 ლიცენზიით. .

მოსალოდნელია, რომ ეს გაძლიერებული გახსნილობა დააჩქარებს Qwen2 მოდელების გამოყენებას და კომერციულ გამოყენებას მთელ მსოფლიოში, ხელს შეუწყობს თანამშრომლობას და ინოვაციას გლობალური AI საზოგადოებაში.

გამოყენება და განხორციელება

Qwen2 მოდელების გამოყენება მარტივია, მათი ინტეგრაციის წყალობით პოპულარულ ჩარჩოებთან, როგორიცაა სახეზე ჩახუტება. აქ მოცემულია Qwen2-7B-Chat-beta გამოყენების მაგალითი დასკვნისთვის:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

კოდის ეს ნაწყვეტი აჩვენებს, თუ როგორ უნდა დააყენოთ და გენერირება ტექსტი Qwen2-7B-Chat მოდელის გამოყენებით. ინტეგრაციასთან სახეზე ჩახუტება ხდის მას ხელმისაწვდომს და მარტივს ექსპერიმენტებს.

Qwen2 vs. Llama 3: შედარებითი ანალიზი

ხოლო Qwen2 და მეტას ლამა 3 ორივე შესანიშნავი ენობრივი მოდელია, ისინი ავლენენ მკაფიო სიძლიერეს და კომპრომისებს.

Qwen2-72B, Llama3-70B, Mixtral-8x22B და Qwen1.5-110B მუშაობის შედარების სქემა მრავალი საორიენტაციო ნიშნით

Qwen2-72B, Llama3-70B, Mixtral-8x22B და Qwen1.5-110B მუშაობის შედარებითი დიაგრამა სხვადასხვა ნიშნებში, მათ შორის MMLU, MMLU-Pro, GPQA და სხვა.

აქ არის შედარებითი ანალიზი, რომელიც დაგეხმარებათ გაიგოთ მათი ძირითადი განსხვავებები:

მრავალენოვანი შესაძლებლობები: Qwen2-ს აქვს აშკარა უპირატესობა მრავალენოვანი მხარდაჭერის თვალსაზრისით. მისი ტრენინგი მონაცემების შესახებ, რომელიც მოიცავს 27 დამატებით ენას, ინგლისურისა და ჩინურის გარდა, საშუალებას აძლევს Qwen2-ს გამოირჩეოდეს კულტურათაშორისი კომუნიკაციისა და მრავალენოვანი სცენარებით. ამის საპირისპიროდ, Llama 3-ის მრავალენოვანი შესაძლებლობები ნაკლებად გამოხატულია, რაც პოტენციურად ზღუდავს მის ეფექტურობას სხვადასხვა ლინგვისტურ კონტექსტში.

კოდირებისა და მათემატიკის ცოდნა: Qwen2 და ლამა 3 აჩვენეთ შთამბეჭდავი კოდირება და მათემატიკური შესაძლებლობები. თუმცა, Qwen2-72B-Instruct-ს, როგორც ჩანს, მცირე უპირატესობა აქვს, ამ დომენებში ვრცელი, მაღალი ხარისხის მონაცემთა ნაკრების მკაცრი სწავლების გამო. Alibaba-ს ფოკუსირება Qwen2-ის შესაძლებლობების გაღრმავებაზე ამ სფეროებში შეიძლება მისცეს მას უპირატესობა სპეციალიზებულ აპლიკაციებში, რომლებიც მოიცავს კოდირებას ან მათემატიკური პრობლემების გადაჭრას.

გრძელი კონტექსტის გაგება: Qwen2-7B-Instruct და Qwen2-72B-Instruct მოდელები ამაყობენ შთამბეჭდავი უნარით გაუმკლავდნენ კონტექსტის სიგრძეს 128K ტოკენამდე. ეს ფუნქცია განსაკუთრებით ღირებულია აპლიკაციებისთვის, რომლებიც საჭიროებენ გრძელი დოკუმენტების ან მკვრივი ტექნიკური მასალების სიღრმისეულ გაგებას. Llama 3, მიუხედავად იმისა, რომ შეუძლია გრძელი თანმიმდევრობების დამუშავება, შეიძლება არ ემთხვეოდეს Qwen2-ის შესრულებას ამ კონკრეტულ სფეროში.

მიუხედავად იმისა, რომ ორივე Qwen2 და Llama 3 ავლენენ უახლესი წარმოდგენას, Qwen2-ის მრავალფეროვანი მოდელების ხაზი, 0.5B-დან 72B-მდე პარამეტრებით, გთავაზობთ უფრო მეტ მოქნილობას და მასშტაბურობას. ეს მრავალფეროვნება საშუალებას აძლევს მომხმარებლებს აირჩიონ მოდელის ზომა, რომელიც საუკეთესოდ შეესაბამება მათ გამოთვლით რესურსებს და შესრულების მოთხოვნებს. გარდა ამისა, Alibaba-ს მუდმივმა მცდელობებმა Qwen2 უფრო დიდ მოდელებზე გაზარდოს მისი შესაძლებლობები, რაც მომავალში პოტენციურად აჯობა Llama 3-ს.

განლაგება და ინტეგრაცია: Qwen2-ის მიღების გამარტივება

Qwen2-ის ფართო დანერგვისა და ინტეგრაციის გასაადვილებლად, Alibaba-მ გადადგა პროაქტიული ნაბიჯები, რათა უზრუნველყოს უწყვეტი განლაგება სხვადასხვა პლატფორმებსა და ჩარჩოებში. Qwen-ის გუნდი მჭიდროდ თანამშრომლობდა მესამე მხარის მრავალ პროექტთან და ორგანიზაციასთან, რაც საშუალებას აძლევდა Qwen2-ის გამოყენებას ინსტრუმენტებისა და ჩარჩოების ფართო სპექტრთან ერთად.

დახვეწა და კვანტიზაცია: მესამე მხარის პროექტები, როგორიცაა Axolotl, Llama-Factory, Firefly, Swift და XTuner, ოპტიმიზირებულია Qwen2 მოდელების სრულყოფილად რეგულირების მხარდასაჭერად, რაც მომხმარებლებს საშუალებას აძლევს, მოარგონ მოდელები თავიანთ კონკრეტულ ამოცანებსა და მონაცემთა ნაკრებებზე. გარდა ამისა, კვანტიზაციის ხელსაწყოები, როგორიცაა AutoGPTQ, AutoAWQდა ნერვული კომპრესორი ადაპტირებულია Qwen2-თან მუშაობისთვის, რაც ხელს უწყობს ეფექტურ განლაგებას რესურსებით შეზღუდული მოწყობილობებზე.

განლაგება და დასკვნა: Qwen2 მოდელების განლაგება და მომსახურება შესაძლებელია სხვადასხვა ჩარჩოს გამოყენებით, მათ შორის vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoდა TGI. ეს ჩარჩოები გვთავაზობენ დასკვნის ოპტიმიზებულ მილსადენებს, რაც საშუალებას აძლევს Qwen2-ის ეფექტურ და მასშტაბირებად განთავსებას საწარმოო გარემოში.

API პლატფორმები და ლოკალური შესრულება: დეველოპერებისთვის, რომლებიც ცდილობენ Qwen2-ის ინტეგრირებას თავიანთ აპლიკაციებში, API პლატფორმები, როგორიცაა Together, Fireworks და OpenRouter, უზრუნველყოფს მოსახერხებელ წვდომას მოდელების შესაძლებლობებზე. ალტერნატიულად, ლოკალური შესრულება მხარდაჭერილია ისეთი ჩარჩოებით, როგორიცაა MLX, Llama.cpp, ოლამა, და LM Studio, რაც მომხმარებლებს საშუალებას აძლევს, გაუშვან Qwen2 თავიანთ ადგილობრივ აპარატებზე, მონაცემთა კონფიდენციალურობასა და უსაფრთხოებაზე კონტროლის შენარჩუნებისას.

აგენტი და RAG Frameworks: Qwen2-ის მხარდაჭერა ხელსაწყოების გამოყენებისა და აგენტის შესაძლებლობებისთვის გაძლიერებულია ისეთი ჩარჩოებით, როგორიცაა ლამაინდექსი, CrewAI და OpenDevin. ეს ჩარჩოები იძლევა სპეციალიზებული AI აგენტების შექმნას და Qwen2-ის ინტეგრაციას მოძიებით გაძლიერებული თაობა (RAG) მილსადენები, აფართოებს აპლიკაციებისა და გამოყენების შემთხვევების სპექტრს.

წინსვლა: მომავალი განვითარება და შესაძლებლობები

Alibaba-ს ხედვა Qwen2-ზე ბევრად სცილდება მიმდინარე გამოშვებას. გუნდი აქტიურად ავარჯიშებს უფრო დიდ მოდელებს მოდელის სკალირების საზღვრების შესასწავლად, რასაც ავსებს მონაცემთა სკალირების მიმდინარე ძალისხმევა. გარდა ამისა, მიმდინარეობს Qwen2-ის გაფართოების გეგმები მულტიმოდალური ხელოვნური ინტელექტის სფეროში, რაც შესაძლებელს გახდის ხედვისა და აუდიო გაგების შესაძლებლობების ინტეგრირებას.

როდესაც ღია წყაროს AI ეკოსისტემა აგრძელებს აყვავებას, Qwen2 ითამაშებს გადამწყვეტ როლს, რომელიც იქნება მძლავრი რესურსი მკვლევარებისთვის, დეველოპერებისთვის და ორგანიზაციებისთვის, რომლებიც ცდილობენ გააუმჯობესონ ხელოვნების დონე ბუნებრივი ენის დამუშავებასა და ხელოვნურ ინტელექტში.

გასული ხუთი წელი გავატარე მანქანათმცოდნეობის და ღრმა სწავლის მომხიბლავ სამყაროში ჩაძირვაში. ჩემმა გატაცებამ და გამოცდილებამ მიბიძგა, რომ წვლილი შემეტანა 50-ზე მეტ მრავალფეროვან პროგრამულ საინჟინრო პროექტში, განსაკუთრებული აქცენტით AI/ML-ზე. ჩემმა მუდმივმა ცნობისმოყვარეობამ ასევე მიმიზიდა ბუნებრივი ენის დამუშავებისკენ, სფერო, რომლის შემდგომი შესწავლა მსურს.