Ühenda meile

Tehisintellekt

Qwen2 – Alibaba uusim mitmekeelne keelemudel esitab SOTA-le väljakutseid nagu Llama 3

mm
Ajakohastatud on
areng Qwen1.5-st Qwen2-ks

Pärast kuudepikkust ootust, Alibaba Qweni meeskond on lõpuks avalikustanud Qwen2 – nende võimsa keelemudelite seeria järgmine areng. Qwen2 on märkimisväärne samm edasi, uhkeldades tipptasemel edusammudega, mis võivad potentsiaalselt positsioneerida selle parimaks alternatiiviks Meta tähistatavale. Laama 3 mudel. Selles tehnilises sügavas sukeldumises uurime põhifunktsioone, jõudlusnäitajaid ja uuenduslikke tehnikaid, mis muudavad Qwen2 suurte keelemudelite (LLM) valdkonnas võimsaks konkurendiks.

Suurendamine: Qwen2 mudelivaliku tutvustamine

Keskmes Qwen2 sisaldab mitmesuguseid mudeleid, mis on kohandatud erinevatele arvutusnõuetele. Seeria hõlmab viit erinevat mudelisuurust: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B ja lipulaev Qwen2-72B. See valikute valik sobib paljudele kasutajatele, alates tagasihoidlike riistvararessurssidega kasutajatest kuni nendeni, kellel on juurdepääs tipptasemel arvutuslikule infrastruktuurile.

Üks Qwen2 silmapaistvamaid omadusi on selle mitmekeelsus. Kuigi eelmine Qwen1.5 inglise ja hiina keeles suurepärase mudeli puhul on Qwen2 koolitatud andmetega, mis hõlmavad muljetavaldavat 27 lisakeelt. See mitmekeelne koolitusprogramm hõlmab keeli erinevatest piirkondadest, nagu Lääne-Euroopa, Ida- ja Kesk-Euroopa, Lähis-Ida, Ida-Aasia ja Lõuna-Aasia.

Qwen2 mudelite toetatud keelte tabel piirkondade kaupa

Keeled, mida toetavad Qwen2 mudelid ja mis on liigitatud geograafiliste piirkondade järgi

Laiendades oma keelelist repertuaari, demonstreerib Qwen2 erakordset võimet mõista ja luua sisu paljudes keeltes, muutes selle hindamatuks tööriistaks globaalsete rakenduste ja kultuuridevahelise suhtluse jaoks.

 

Tabel, mis võrdleb Qwen2 mudeleid parameetrite, mittemanustatavate parameetrite, GQA, sideme manustamise ja konteksti pikkuse järgi

Qwen2 mudelite spetsifikatsioonid, sealhulgas parameetrid, GQA ja konteksti pikkus.

Koodivahetusega tegelemine: mitmekeelne väljakutse

Mitmekeelses kontekstis on koodivahetuse nähtus – eri keelte vaheldumine ühes vestluses või lausungis – tavaline nähtus. Qwen2 on hoolikalt koolitatud koodivahetuse stsenaariumide käsitlemiseks, vähendades märkimisväärselt sellega seotud probleeme ja tagades sujuva ülemineku keelte vahel.

Hinnangud, mis kasutavad tavaliselt koodivahetust esile kutsuvaid viipasid, on kinnitanud Qwen2 olulist paranemist selles valdkonnas, mis annab tunnistust Alibaba pühendumisest tõeliselt mitmekeelse keelemudeli pakkumisele.

Suurepärane kodeerimine ja matemaatika

Qwen2-l on märkimisväärsed võimalused kodeerimise ja matemaatika valdkonnas, mis on keelemudelitele traditsiooniliselt väljakutseid esitanud. Kasutades ulatuslikke kvaliteetseid andmekogumeid ja optimeeritud koolitusmetoodikaid, on lipulaeva mudeli juhistega häälestatud variant Qwen2-72B-Instruct silmapaistev matemaatikaprobleemide lahendamisel ja kodeerimisülesannete lahendamisel erinevates programmeerimiskeeltes.

Konteksti mõistmise laiendamine

Qwen2 üks muljetavaldavamaid omadusi on selle võime mõista ja töödelda laiendatud konteksti jadasid. Kui enamik keelemudeleid on hädas pika tekstiga, siis Qwen2-7B-Instruct ja Qwen2-72B-Instruct mudelid on loodud käsitlema kuni 128 XNUMX märgi pikkust konteksti.

See tähelepanuväärne võime muudab mängu rakendusi, mis nõuavad põhjalikku arusaamist pikkadest dokumentidest, nagu juriidilised lepingud, uurimistööd või tihedad tehnilised juhendid. Laiendatud kontekstide tõhusa töötlemise abil saab Qwen2 pakkuda täpsemaid ja põhjalikumaid vastuseid, avades loomuliku keele töötlemisel uued piirid.

Diagramm, mis näitab Qwen2 mudelite faktiotsingu täpsust erinevates konteksti pikkustes ja dokumendisügavustes

Qwen2 mudelite täpsus dokumentidest faktide hankimisel erineva pikkusega ja erineva sügavusega kontekstis.

See diagramm näitab Qwen2 mudelite võimet hankida fakte erineva konteksti pikkuse ja sügavusega dokumentidest.

Arhitektuuriuuendused: grupipäringu tähelepanu ja optimeeritud manustused

Kapoti all on Qwen2 mitmed arhitektuurilised uuendused, mis aitavad kaasa selle erakordsele jõudlusele. Üks selline uuendus on rühmapäringu tähelepanu (GQA) kasutuselevõtt kõigis mudelisuurustes. GQA pakub kiiremat järelduskiirust ja väiksemat mälukasutust, muutes Qwen2 tõhusamaks ja kättesaadavamaks laiemale riistvarakonfiguratsioonile.

Lisaks on Alibaba optimeerinud Qwen2 seeria väiksemate mudelite manuseid. Manustuste sidumisega on meeskond suutnud vähendada nende mudelite mälumahtu, võimaldades neid juurutada vähem võimsale riistvarale, säilitades samal ajal kvaliteetse jõudluse.

Võrdlusuuringud Qwen2: parimad tipptasemel mudelid

Qwen2-l on silmapaistev jõudlus mitmesugustes võrdlusalustes. Võrdlevad hinnangud näitavad, et Qwen2-72B, seeria suurim mudel, edestab juhtivaid konkurente, nagu Llama-3-70B, kriitilistes valdkondades, sealhulgas loomuliku keele mõistmises, teadmiste omandamises, kodeerimisoskuses, matemaatilistes oskustes ja mitmekeelsuses.

Diagrammid, mis võrdlevad Qwen2-72B-Instruct ja Llama3-70B-Instruct kodeerimisel mitmes programmeerimiskeeles ja matemaatikas erinevatel eksamitel

Qwen2-72B-Instruct versus Llama3-70B-Instruct kodeerimises ja matemaatikas

Hoolimata sellest, et sellel on vähem parameetreid kui eelkäijal Qwen1.5-110B, on Qwen2-72B suurepärane jõudlus, mis annab tunnistust Alibaba hoolikalt kureeritud andmekogumite ja optimeeritud treeningmetoodikate tõhususest.

Ohutus ja vastutus: inimväärtustega vastavusse viimine

Qwen2-72B-Instructi on rangelt hinnatud selle võime osas, mis käsitleb potentsiaalselt kahjulikke päringuid, mis on seotud ebaseaduslike tegevuste, pettuste, pornograafia ja privaatsuse rikkumistega. Tulemused on julgustavad: Qwen2-72B-Instruct toimib ohutuse osas kõrgelt hinnatud GPT-4 mudeliga võrreldavalt, avaldades teiste suurte mudelitega, nagu Mistral-8x22B, oluliselt väiksemaid kahjulikke reaktsioone.

See saavutus rõhutab Alibaba pühendumust inimväärtustega kooskõlas olevate AI-süsteemide väljatöötamisele, tagades, et Qwen2 pole mitte ainult võimas, vaid ka usaldusväärne ja vastutustundlik.

Litsentsimine ja avatud lähtekoodiga kohustus

Qwen2 mõju veelgi võimendava sammuna on Alibaba litsentsimisel võtnud kasutusele avatud lähtekoodiga lähenemisviisi. Kui Qwen2-72B ja selle juhistega häälestatud mudelid säilitavad algse Qianweni litsentsi, siis ülejäänud mudelid – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B ja Qwen2-57B-A14B – on litsentsitud lubava Apache 2.0 litsentsi alusel. .

See suurem avatus kiirendab eeldatavasti Qwen2 mudelite rakendamist ja kaubanduslikku kasutamist kogu maailmas, soodustades koostööd ja innovatsiooni ülemaailmses AI kogukonnas.

Kasutamine ja rakendamine

Qwen2 mudelite kasutamine on lihtne tänu nende integreerimisele populaarsete raamistikega nagu Kallistav nägu. Siin on näide Qwen2-7B-Chat-beeta kasutamisest järelduste tegemiseks:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

See koodilõik näitab, kuidas seadistada ja luua teksti Qwen2-7B-Chat mudeli abil. Integratsioon koos Kallistav nägu muudab selle kättesaadavaks ja hõlpsasti katsetatavaks.

Qwen2 vs. Laama 3: võrdlev analüüs

Kuigi Qwen2 ja Meta laama 3 on mõlemad tohutud keelemudelid, neil on selged tugevused ja kompromissid.

Qwen2-72B, Llama3-70B, Mixtral-8x22B ja Qwen1.5-110B toimivuse võrdlustabel mitme võrdlusaluse lõikes

Qwen2-72B, Llama3-70B, Mixtral-8x22B ja Qwen1.5-110B võrdlev jõudlusdiagramm erinevate võrdlusaluste, sealhulgas MMLU, MMLU-Pro, GPQA ja teiste lõikes.

Siin on võrdlev analüüs, mis aitab teil mõista nende peamisi erinevusi.

Mitmekeelsed võimalused: Qwen2-l on mitmekeelse toe osas selge eelis. Selle väljaõpe 27 täiendava keele (lisaks inglise ja hiina keeles) andmetele võimaldab Qwen2-l silma paista kultuuridevahelises suhtluses ja mitmekeelsetes stsenaariumides. Seevastu Llama 3 mitmekeelsed võimalused on vähem väljendunud, mis võib piirata selle tõhusust erinevates keelekontekstides.

Kodeerimis- ja matemaatikaoskus: Nii Qwen2 kui ka Laama 3 demonstreerida muljetavaldavat kodeerimis- ja matemaatilisi võimeid. Siiski tundub, et Qwen2-72B-Instructil on nendes valdkondades laiaulatuslike ja kvaliteetsete andmekogumite põhjalik koolitus. Alibaba keskendumine Qwen2 võimekuse suurendamisele nendes valdkondades võib anda talle eelise spetsiaalsete rakenduste jaoks, mis hõlmavad kodeerimist või matemaatilist probleemide lahendamist.

Pikaajaline konteksti mõistmine: Qwen2-7B-Instruct ja Qwen2-72B-Instruct mudelitel on muljetavaldav võime käsitleda konteksti pikkust kuni 128 3 märgini. See funktsioon on eriti väärtuslik rakenduste puhul, mis nõuavad pikkade dokumentide või tihedate tehniliste materjalide põhjalikku mõistmist. Kuigi Llama 2 on võimeline töötlema pikki jadasid, ei pruugi see vastata QwenXNUMX jõudlusele selles konkreetses piirkonnas.

Kuigi nii Qwen2 kui ka Llama 3 omavad tipptasemel jõudlust, pakub Qwen2 mitmekesine mudelivalik, mis ulatub parameetritest 0.5B kuni 72B, suuremat paindlikkust ja mastaapsust. See mitmekülgsus võimaldab kasutajatel valida mudeli suuruse, mis sobib kõige paremini nende arvutusressursside ja jõudlusnõuetega. Lisaks võivad Alibaba jätkuvad jõupingutused Qwen2 laiendamiseks suurematele mudelitele veelgi suurendada selle võimekust, ületades tulevikus potentsiaalselt Llama 3.

Juurutamine ja integreerimine: Qwen2 kasutuselevõtu sujuvamaks muutmine

Qwen2 laialdase kasutuselevõtu ja integreerimise hõlbustamiseks on Alibaba astunud ennetavaid samme, et tagada sujuv juurutamine erinevates platvormides ja raamistikes. Qweni meeskond on teinud tihedat koostööd paljude kolmandate osapoolte projektide ja organisatsioonidega, võimaldades Qwen2-d kasutada koos paljude tööriistade ja raamistikega.

Peenhäälestus ja kvantimine: Kolmandate osapoolte projektid, nagu Axolotl, Llama-Factory, Firefly, Swift ja XTuner, on optimeeritud toetama Qwen2 mudelite peenhäälestust, võimaldades kasutajatel kohandada mudeleid oma konkreetsete ülesannete ja andmekogumitega. Lisaks on sellised kvantimistööriistad nagu AutoGPTQ, AutoAWQ, ja Neural Compressor on kohandatud töötama koos Qwen2-ga, hõlbustades tõhusat juurutamist ressurssidega piiratud seadmetes.

Kasutuselevõtt ja järeldused: Qwen2 mudeleid saab juurutada ja teenindada mitmesuguste raamistike abil, sealhulgas vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoja TGI. Need raamistikud pakuvad optimeeritud järelduste torujuhtmeid, mis võimaldavad Qwen2 tõhusat ja skaleeritavat juurutamist tootmiskeskkondades.

API platvormid ja kohalik täitmine: Arendajatele, kes soovivad integreerida Qwen2 oma rakendustesse, pakuvad API-platvormid, nagu Together, Fireworks ja OpenRouter, mugavat juurdepääsu mudelite võimalustele. Teise võimalusena toetatakse kohalikku täitmist selliste raamistike kaudu nagu MLX, Llama.cpp, Ollamaja LM Studio, mis võimaldab kasutajatel käitada Qwen2 oma kohalikes masinates, säilitades samal ajal kontrolli andmete privaatsuse ja turvalisuse üle.

Agent ja RAG Frameworks: Qwen2 toetust tööriistade kasutamisele ja agentide võimalustele toetavad sellised raamistikud nagu Kõneindeks, CrewAI ja OpenDevin. Need raamistikud võimaldavad luua spetsiaalseid tehisintellekti agente ja integreerida Qwen2 otsimisega laiendatud põlvkond (RAG) torujuhtmed, laiendades rakenduste ja kasutusjuhtude valikut.

Vaadates tulevikku: edasised arengud ja võimalused

Alibaba nägemus Qwen2-st ulatub praegusest versioonist palju kaugemale. Meeskond koolitab aktiivselt suuremaid mudeleid, et uurida mudeli skaleerimise piire, mida täiendavad käimasolevad andmete skaleerimise jõupingutused. Lisaks on plaanis laiendada Qwen2 multimodaalse tehisintellekti valdkonda, võimaldades integreerida nägemise ja heli mõistmise võimalused.

Kuna avatud lähtekoodiga tehisintellekti ökosüsteem õitseb jätkuvalt, mängib Qwen2 keskset rolli, olles võimas ressurss teadlastele, arendajatele ja organisatsioonidele, kes soovivad edendada loomuliku keele töötlemise ja tehisintellekti tehnika taset.

Olen viimased viis aastat veetnud masinõppe ja süvaõppe põnevasse maailma sukeldudes. Minu kirg ja teadmised on pannud mind panustama enam kui 50 erinevasse tarkvaratehnoloogia projekti, keskendudes eelkõige AI/ML-ile. Minu jätkuv uudishimu on tõmmanud mind ka loomuliku keele töötlemise poole, valdkonda, mida ma innukalt edasi uurin.