Savienoties ar mums

Mākslīgais intelekts

Qwen2 — Alibaba jaunākais daudzvalodu valodas modelis izaicina SOTA, piemēram, Llama 3

mm
Atjaunināts on
evolūcija no Qwen1.5 uz Qwen2

Pēc mēnešiem ilgas gaidīšanas, Alibaba komanda Qwen beidzot ir atklājusi Qwen2 – viņu jaudīgās valodu modeļu sērijas nākamā evolūcija. Qwen2 ir nozīmīgs solis uz priekšu, kas lepojas ar visprogresīvākajiem sasniegumiem, kas potenciāli varētu pozicionēt to kā labāko alternatīvu Meta slavenajam Lama 3 modelis. Šajā tehniskajā dziļajā niršanā mēs izpētīsim galvenās funkcijas, veiktspējas etalonus un novatoriskas metodes, kas padara Qwen2 par milzīgu sāncensi lielo valodu modeļu (LLM) jomā.

Mērogošana: Iepazīstinām ar Qwen2 modeļu klāstu

Kodols Qwen2 ir daudzveidīgs modeļu klāsts, kas pielāgots dažādām skaitļošanas prasībām. Sērija ietver piecus dažādus modeļu izmērus: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B un vadošo Qwen2-72B. Šis opciju klāsts ir piemērots plašam lietotāju lokam, sākot no tiem, kuriem ir pieticīgi aparatūras resursi, līdz tiem, kuriem ir piekļuve progresīvai skaitļošanas infrastruktūrai.

Viena no Qwen2 izcilajām funkcijām ir daudzvalodu iespējas. Kamēr iepriekšējā Qwen1.5 modelis ir izcils angļu un ķīniešu valodā, Qwen2 ir apmācīts par datiem, kas aptver iespaidīgas 27 papildu valodas. Šis daudzvalodu apmācības režīms ietver valodas no dažādiem reģioniem, piemēram, Rietumeiropas, Austrumeiropas un Centrāleiropas, Tuvajiem Austrumiem, Austrumāzijas un Dienvidāzijas.

Tabula, kurā uzskaitītas valodas, kuras atbalsta Qwen2 modeļi, kas sakārtotas pēc reģioniem

Valodas, ko atbalsta Qwen2 modeļi, kas iedalītas kategorijās pēc ģeogrāfiskajiem reģioniem

Paplašinot savu valodu repertuāru, Qwen2 demonstrē izcilu spēju saprast un ģenerēt saturu plašā valodu klāstā, padarot to par nenovērtējamu rīku globālām lietojumprogrammām un starpkultūru saziņai.

 

Qwen2 modeļu salīdzināšanas tabula pēc parametriem, neiegulšanas parametriem, GQA, kaklasaites iegulšanas un konteksta garuma

Qwen2 modeļu specifikācijas, tostarp parametri, GQA un konteksta garums.

Koda maiņas risināšana: daudzvalodu izaicinājums

Daudzvalodu kontekstā koda maiņas fenomens — prakse mainīt dažādas valodas vienā sarunā vai izteikumā — ir izplatīta parādība. Qwen2 ir rūpīgi apmācīts rīkoties koda maiņas scenārijos, ievērojami samazinot saistītās problēmas un nodrošinot vienmērīgu pāreju starp valodām.

Novērtējumi, izmantojot uzvednes, kas parasti izraisa koda maiņu, ir apstiprinājušas Qwen2 būtiskos uzlabojumus šajā jomā, kas liecina par Alibaba apņemšanos nodrošināt patiesi daudzvalodu valodas modeli.

Izcili kodēšanas un matemātikas jomā

Qwen2 ir ievērojamas iespējas kodēšanas un matemātikas jomās, kas tradicionāli ir radījušas izaicinājumus valodu modeļiem. Izmantojot plašas augstas kvalitātes datu kopas un optimizētas apmācības metodoloģijas, Qwen2-72B-Instruct, instrukcijām pielāgotais vadošā modeļa variants, demonstrē izcilu veiktspēju matemātisko problēmu risināšanā un kodēšanas uzdevumus dažādās programmēšanas valodās.

Konteksta izpratnes paplašināšana

Viena no iespaidīgākajām Qwen2 iezīmēm ir tās spēja izprast un apstrādāt paplašinātas konteksta secības. Lai gan lielākā daļa valodu modeļu cīnās ar garu tekstu, Qwen2-7B-Instruct un Qwen2-72B-Instruct modeļi ir izstrādāti, lai apstrādātu konteksta garumus līdz pat 128 XNUMX marķieriem.

Šī ievērojamā iespēja ir spēles mainītājs lietojumprogrammām, kurām nepieciešama padziļināta izpratne par gariem dokumentiem, piemēram, juridiskiem līgumiem, pētniecības darbiem vai blīvām tehniskām rokasgrāmatām. Efektīvi apstrādājot paplašinātos kontekstus, Qwen2 var sniegt precīzākas un visaptverošākas atbildes, atverot jaunas robežas dabiskās valodas apstrādē.

Diagramma, kas parāda Qwen2 modeļu faktu izguves precizitāti dažādos konteksta garumos un dokumentu dziļumos

Qwen2 modeļu precizitāte faktu izgūšanā no dokumentiem dažādos konteksta garumos un dokumentu dziļumos.

Šī diagramma parāda Qwen2 modeļu spēju izgūt faktus no dažāda konteksta garuma un dziļuma dokumentiem.

Arhitektūras jauninājumi: grupu vaicājumu uzmanība un optimizētas iegulšanas

Zem pārsega Qwen2 ir iekļauti vairāki arhitektūras jauninājumi, kas veicina tā izcilo veiktspēju. Viens no šādiem jauninājumiem ir Group Query Attention (GQA) ieviešana visos modeļu izmēros. GQA piedāvā ātrāku secinājumu izdarīšanas ātrumu un samazinātu atmiņas lietojumu, padarot Qwen2 efektīvāku un pieejamāku plašākam aparatūras konfigurāciju klāstam.

Turklāt Alibaba ir optimizējusi iegulšanu mazākiem Qwen2 sērijas modeļiem. Sasaistot iegulšanu, komandai ir izdevies samazināt šo modeļu atmiņas apjomu, ļaujot tos izvietot mazāk jaudīgā aparatūrā, vienlaikus saglabājot augstas kvalitātes veiktspēju.

Salīdzinošais novērtējums Qwen2: labāki jaunākie modeļi

Qwen2 ir izcila veiktspēja dažādos etalonos. Salīdzinošie novērtējumi atklāj, ka Qwen2-72B, lielākais sērijas modelis, pārspēj vadošos konkurentus, piemēram, Llama-3-70B kritiskās jomās, tostarp dabiskās valodas sapratnē, zināšanu apguvē, kodēšanas prasmē, matemātiskajās prasmēs un daudzvalodu prasmēs.

Diagrammas, kurās salīdzina Qwen2-72B-Instruct un Llama3-70B-Instruct kodēšanā vairākās programmēšanas valodās un matemātikā dažādos eksāmenos

Qwen2-72B-Instruct pret Llama3-70B-Instruct kodēšanas un matemātikas veiktspējā

Neskatoties uz to, ka tiem ir mazāk parametru nekā tā priekšgājējam, Qwen1.5-110B, Qwen2-72B ir izcila veiktspēja, kas liecina par Alibaba rūpīgi izstrādāto datu kopu un optimizēto apmācības metodiku efektivitāti.

Drošība un atbildība: saskaņošana ar cilvēciskajām vērtībām

Qwen2-72B-Instruct ir rūpīgi novērtēts attiecībā uz spēju apstrādāt potenciāli kaitīgus vaicājumus, kas saistīti ar nelikumīgām darbībām, krāpšanu, pornogrāfiju un privātuma pārkāpumiem. Rezultāti ir iepriecinoši: Qwen2-72B-Instruct drošības ziņā ir salīdzināms ar augsti novērtēto GPT-4 modeli, uzrādot ievērojami mazāku kaitīgo reakciju īpatsvaru salīdzinājumā ar citiem lieliem modeļiem, piemēram, Mistral-8x22B.

Šis sasniegums uzsver Alibaba apņemšanos izstrādāt AI sistēmas, kas atbilst cilvēka vērtībām, nodrošinot, ka Qwen2 ir ne tikai spēcīgs, bet arī uzticams un atbildīgs.

Licencēšana un atklātā pirmkoda saistības

Veicot darbību, kas vēl vairāk pastiprina Qwen2 ietekmi, Alibaba ir pieņēmusi atvērtā pirmkoda pieeju licencēšanai. Kamēr Qwen2-72B un tā instrukcijām pielāgotie modeļi saglabā oriģinālo Qianwen licenci, pārējie modeļi - Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B un Qwen2-57B-A14B - ir licencēti saskaņā ar atļauju Apache 2.0 licenci. .

Paredzams, ka šī uzlabotā atvērtība paātrinās Qwen2 modeļu pielietošanu un komerciālu izmantošanu visā pasaulē, veicinot sadarbību un inovācijas globālajā AI kopienā.

Lietošana un ieviešana

Qwen2 modeļu izmantošana ir vienkārša, pateicoties to integrācijai ar tādiem populāriem ietvariem kā Apskāviena seja. Šeit ir piemērs, kā izmantot Qwen2-7B-Chat-beta secinājumu veikšanai:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Šis koda fragments parāda, kā iestatīt un ģenerēt tekstu, izmantojot Qwen2-7B-Chat modeli. Integrācija ar Apskāviena seja padara to pieejamu un viegli eksperimentējamu.

Qwen2 vs. Lama 3: salīdzinošā analīze

Kamēr Qwen2 un Metas lama 3 abi ir lieliski valodu modeļi, tiem ir atšķirīgas stiprās puses un kompromisi.

Qwen2-72B, Llama3-70B, Mixtral-8x22B un Qwen1.5-110B veiktspējas salīdzināšanas diagramma vairākos etalonos

Salīdzinoša Qwen2-72B, Llama3-70B, Mixtral-8x22B un Qwen1.5-110B veiktspējas diagramma dažādos etalonos, tostarp MMLU, MMLU-Pro, GPQA un citos.

Tālāk ir sniegta salīdzinoša analīze, kas palīdzēs izprast to galvenās atšķirības.

Daudzvalodu iespējas: Qwen2 ir nepārprotamas priekšrocības daudzvalodu atbalsta ziņā. Tā apmācība par datiem, kas aptver 27 papildu valodas, ne tikai angļu un ķīniešu valodu, ļauj Qwen2 izcelties starpkultūru komunikācijā un daudzvalodu scenārijos. Turpretim Llama 3 daudzvalodu iespējas ir mazāk izteiktas, potenciāli ierobežojot tās efektivitāti dažādos valodu kontekstos.

Kodēšanas un matemātikas prasme: gan Qwen2, gan Lama 3 demonstrē iespaidīgas kodēšanas un matemātiskās spējas. Tomēr šķiet, ka Qwen2-72B-Instruct ir neliela priekšrocība, pateicoties tā stingrai apmācībai par plašām, augstas kvalitātes datu kopām šajās jomās. Alibaba koncentrēšanās uz Qwen2 spēju uzlabošanu šajās jomās varētu dot tai priekšrocības specializētām lietojumprogrammām, kas saistītas ar kodēšanu vai matemātisko problēmu risināšanu.

Garā konteksta izpratne: Qwen2-7B-Instruct un Qwen2-72B-Instruct modeļi lepojas ar iespaidīgu spēju apstrādāt konteksta garumus līdz pat 128 3 marķieriem. Šī funkcija ir īpaši vērtīga lietojumprogrammām, kurām nepieciešama padziļināta izpratne par gariem dokumentiem vai blīviem tehniskajiem materiāliem. Lai gan Llama 2 spēj apstrādāt garas secības, tas var neatbilst QwenXNUMX veiktspējai šajā konkrētajā jomā.

Lai gan gan Qwen2, gan Llama 3 demonstrē vismodernāko veiktspēju, Qwen2 daudzveidīgais modeļu klāsts, kas svārstās no 0.5 B līdz 72 B parametriem, piedāvā lielāku elastību un mērogojamību. Šī daudzpusība ļauj lietotājiem izvēlēties modeļa izmēru, kas vislabāk atbilst viņu skaitļošanas resursiem un veiktspējas prasībām. Turklāt Alibaba pastāvīgie centieni pielāgot Qwen2 uz lielākiem modeļiem varētu vēl vairāk uzlabot tā iespējas, nākotnē potenciāli apsteidzot Llama 3.

Izvietošana un integrācija: Qwen2 pieņemšanas racionalizēšana

Lai veicinātu Qwen2 plašo ieviešanu un integrāciju, Alibaba ir veikusi proaktīvus pasākumus, lai nodrošinātu netraucētu izvietošanu dažādās platformās un sistēmās. Qwen komanda ir cieši sadarbojusies ar daudziem trešo pušu projektiem un organizācijām, ļaujot Qwen2 izmantot kopā ar plašu rīku un sistēmu klāstu.

Precīza regulēšana un kvantēšana: Trešo pušu projekti, piemēram, Axolotl, Llama-Factory, Firefly, Swift un XTuner, ir optimizēti, lai atbalstītu Qwen2 modeļu precizēšanu, ļaujot lietotājiem pielāgot modeļus saviem specifiskajiem uzdevumiem un datu kopām. Turklāt kvantēšanas rīki, piemēram, AutoGPTQ, AutoAWQ, un Neural Compressor ir pielāgoti darbam ar Qwen2, atvieglojot efektīvu izvietošanu ierīcēs ar ierobežotiem resursiem.

Izvietošana un secinājumi: Qwen2 modeļus var izvietot un apkalpot, izmantojot dažādus ietvarus, tostarp vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoun TGI. Šīs sistēmas piedāvā optimizētus secinājumu cauruļvadus, kas ļauj efektīvi un mērogojami izvietot Qwen2 ražošanas vidēs.

API platformas un vietējā izpilde: Izstrādātājiem, kuri vēlas integrēt Qwen2 savās lietojumprogrammās, API platformas, piemēram, Together, Fireworks un OpenRouter, nodrošina ērtu piekļuvi modeļu iespējām. Vietējā izpilde tiek atbalstīta arī, izmantojot tādas sistēmas kā MLX, Llama.cpp, Ollamaun LM Studio, ļaujot lietotājiem palaist Qwen2 savās vietējās iekārtās, vienlaikus saglabājot kontroli pār datu privātumu un drošību.

Aģents un RAG Frameworks: Qwen2 atbalstu rīku lietošanai un aģentu iespējām atbalsta tādas sistēmas kā LlamaIndex, CrewAI un OpenDevin. Šīs sistēmas ļauj izveidot specializētus AI aģentus un integrēt Qwen2 izguves paplašinātā paaudze (RAG) cauruļvadi, paplašinot pielietojumu un lietošanas gadījumu klāstu.

Raugoties uz priekšu: nākotnes attīstība un iespējas

Alibaba vīzija par Qwen2 sniedzas daudz tālāk par pašreizējo izlaidumu. Komanda aktīvi apmāca lielākus modeļus, lai izpētītu modeļu mērogošanas robežas, ko papildina notiekošie datu mērogošanas centieni. Turklāt tiek plānots paplašināt Qwen2 multimodālā AI jomā, ļaujot integrēt redzes un audio izpratnes iespējas.

Tā kā atvērtā pirmkoda AI ekosistēma turpina zelt, Qwen2 spēlēs galveno lomu, kas kalpos kā spēcīgs resurss pētniekiem, izstrādātājiem un organizācijām, kas cenšas uzlabot jaunākās tehnoloģijas dabiskās valodas apstrādes un mākslīgā intelekta jomā.

Pēdējos piecus gadus esmu pavadījis, iegremdējot sevi aizraujošajā mašīnmācīšanās un dziļās mācīšanās pasaulē. Mana aizraušanās un pieredze lika man piedalīties vairāk nekā 50 dažādos programmatūras inženierijas projektos, īpašu uzmanību pievēršot AI/ML. Mana pastāvīgā ziņkārība mani ir piesaistījusi arī dabiskās valodas apstrādei, jomai, kuru vēlos izpētīt tālāk.