Միացեք մեզ

Արհեստական ​​բանականություն

Qwen2 – Alibaba-ի վերջին բազմալեզու լեզվի մոդելը մարտահրավեր է նետում SOTA-ին, ինչպես Llama 3-ը

mm
Թարմացվել է on
էվոլյուցիան Qwen1.5-ից Qwen2

Ամիսներ տեւած սպասումներից հետո, Alibaba-ի Qwen թիմը վերջապես ներկայացրել է Qwen2-ը – նրանց հզոր լեզվական մոդելների շարքի հաջորդ էվոլյուցիան: Qwen2-ը ներկայացնում է զգալի թռիչք առաջ՝ պարծենալով առաջադեմ առաջընթացներով, որոնք կարող են այն պոտենցիալ դասավորել որպես Meta-ի հայտնի տարբերակի լավագույն այլընտրանք։ Լամա 3 մոդել. Այս տեխնիկական խորը սուզման ընթացքում մենք կուսումնասիրենք հիմնական հատկանիշները, կատարողականության չափանիշները և նորարարական մեթոդները, որոնք Qwen2-ին դարձնում են ահռելի մրցակից մեծ լեզվական մոդելների (LLM) ոլորտում:

Scaling Up. Ներկայացնում ենք Qwen2 մոդելի շարքը

-Ի հիմքում Քվեն 2 այն մոդելների բազմազան տեսականի է, որոնք հարմարեցված են տարբեր հաշվողական պահանջներին բավարարելու համար: Սերիան ներառում է հինգ տարբեր մոդելների չափսեր՝ Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B և առաջատար Qwen2-72B: Ընտրանքների այս շրջանակը սպասարկում է օգտատերերի լայն սպեկտր՝ սկսած համեստ ապարատային ռեսուրսներ ունեցողներից մինչև նորագույն հաշվողական ենթակառուցվածքի հասանելիություն ունեցողներից:

Qwen2-ի առանձնահատուկ առանձնահատկություններից մեկը նրա բազմալեզու հնարավորություններն են: Մինչդեռ նախորդ Քվեն 1.5 Անգլերեն և չինարեն գերազանց մոդել, Qwen2-ը վերապատրաստվել է տպավորիչ 27 լրացուցիչ լեզուներով ընդգրկող տվյալների վրա: Այս բազմալեզու վերապատրաստման ռեժիմը ներառում է լեզուներ տարբեր տարածաշրջաններից, ինչպիսիք են Արևմտյան Եվրոպան, Արևելյան և Կենտրոնական Եվրոպան, Մերձավոր Արևելքը, Արևելյան Ասիան և Հարավային Ասիան:

Աղյուսակ, որը ներկայացնում է Qwen2 մոդելների կողմից աջակցվող լեզուները՝ դասակարգված ըստ տարածաշրջանների

Լեզուներ, որոնք աջակցվում են Qwen2 մոդելներով, դասակարգված ըստ աշխարհագրական տարածաշրջանների

Ընդլայնելով իր լեզվական ռեպերտուարը՝ Qwen2-ը ցուցադրում է բովանդակություն հասկանալու և գեներացնելու բացառիկ ունակություն լեզուների լայն շրջանակում՝ դարձնելով այն անգնահատելի գործիք գլոբալ կիրառությունների և միջմշակութային հաղորդակցության համար:

 

Աղյուսակ, որը համեմատում է Qwen2 մոդելները ըստ պարամետրերի, ոչ ներկառուցվող պարամետրերի, GQA-ի, կապի ներդրման և համատեքստի երկարության

Qwen2 մոդելների բնութագրերը, ներառյալ պարամետրերը, GQA-ն և համատեքստի երկարությունը:

Բազմալեզու մարտահրավեր

Բազմալեզու համատեքստերում ծածկագրերի փոփոխման երևույթը` մեկ խոսակցության կամ արտասանության ընթացքում տարբեր լեզուների փոխարինման պրակտիկան սովորական երևույթ է: Qwen2-ը մանրակրկիտ վերապատրաստվել է՝ կարգավորելու կոդերի փոխարկման սցենարները՝ զգալիորեն նվազեցնելով հարակից խնդիրները և ապահովելով լեզուների միջև սահուն անցում:

Գնահատումները, որոնք օգտագործում են հուշումներ, որոնք սովորաբար դրդում են կոդերի փոխարկումը, հաստատել են Qwen2-ի էական բարելավումն այս ոլորտում, ինչը վկայում է Alibaba-ի՝ իսկապես բազմալեզու լեզվական մոդելի մատուցման հանձնառության մասին:

Գերազանց կոդավորման և մաթեմատիկայի բնագավառներում

Qwen2-ն ունի ուշագրավ հնարավորություններ կոդավորման և մաթեմատիկայի ոլորտներում, որոնք ավանդաբար մարտահրավերներ են ներկայացնում լեզվական մոդելների համար: Օգտագործելով լայնածավալ բարձրորակ տվյալների հավաքածուներ և օպտիմիզացված ուսուցման մեթոդոլոգիաներ՝ Qwen2-72B-Instruct-ը՝ առաջատար մոդելի հրահանգներով կարգավորվող տարբերակը, ցուցադրում է հիանալի արդյունք մաթեմատիկական խնդիրների լուծման և կոդավորման առաջադրանքների ծրագրավորման տարբեր լեզուներով:

Ընդլայնելով համատեքստի ըմբռնումը

Qwen2-ի ամենատպավորիչ առանձնահատկություններից մեկը ընդլայնված համատեքստի հաջորդականություններն ընկալելու և մշակելու կարողությունն է: Թեև լեզվական մոդելների մեծամասնությունը պայքարում է երկարատև տեքստի հետ, Qwen2-7B-Instruct և Qwen2-72B-Instruct մոդելները մշակվել են մինչև 128K նշանների համատեքստի երկարության համար:

Այս ուշագրավ կարողությունը փոխում է խաղը այն հավելվածների համար, որոնք պահանջում են երկարատև փաստաթղթերի խորը ըմբռնում, ինչպիսիք են իրավական պայմանագրերը, հետազոտական ​​փաստաթղթերը կամ խիտ տեխնիկական ձեռնարկները: Ընդլայնված համատեքստերը արդյունավետ մշակելով՝ Qwen2-ը կարող է ավելի ճշգրիտ և համապարփակ պատասխաններ տրամադրել՝ բացելով բնական լեզվի մշակման նոր սահմանները:

Գծապատկեր, որը ցույց է տալիս Qwen2 մոդելների փաստերի որոնման ճշգրտությունը տարբեր համատեքստի երկարությունների և փաստաթղթերի խորության վրա

Qwen2 մոդելների ճշգրտությունը տարբեր համատեքստի երկարություններով և փաստաթղթերի խորություններով փաստաթղթերից փաստեր ստանալու հարցում:

Այս գծապատկերը ցույց է տալիս Qwen2 մոդելների կարողությունը փաստեր առբերելու տարբեր համատեքստի երկարության և խորության փաստաթղթերից:

Ճարտարապետական ​​նորարարություններ. Խմբային հարցումների ուշադրություն և օպտիմիզացված ներկառուցումներ

Կափարիչի տակ Qwen2-ն իր մեջ ներառում է մի քանի ճարտարապետական ​​նորամուծություններ, որոնք նպաստում են դրա բացառիկ կատարմանը: Նման նորամուծություններից է Խմբային հարցումների ուշադրությունը (GQA) բոլոր մոդելների չափսերի ընդունումը: GQA-ն առաջարկում է ավելի արագ եզրակացության արագություն և նվազեցված հիշողության օգտագործում՝ դարձնելով Qwen2-ն ավելի արդյունավետ և հասանելի ապարատային կոնֆիգուրացիաների ավելի լայն շրջանակի համար:

Բացի այդ, Alibaba-ն օպտիմիզացրել է Qwen2 սերիայի փոքր մոդելների ներկառուցումները: Միացնելով ներկառուցումները՝ թիմին հաջողվել է նվազեցնել այս մոդելների հիշողության հետքը՝ հնարավորություն տալով դրանց տեղակայումը պակաս հզոր սարքաշարի վրա՝ միաժամանակ պահպանելով բարձրորակ կատարումը:

Benchmarking Qwen2. գերազանցում են ժամանակակից մոդելները

Qwen2-ն ունի ուշագրավ կատարողականություն տարբեր չափորոշիչներում: Համեմատական ​​գնահատականները ցույց են տալիս, որ Qwen2-72B-ը՝ շարքի ամենամեծ մոդելը, գերազանցում է առաջատար մրցակիցներին, ինչպիսիք են Llama-3-70B-ը կարևոր ոլորտներում, ներառյալ բնական լեզվի ըմբռնումը, գիտելիքների ձեռքբերումը, կոդավորման հմտությունները, մաթեմատիկական հմտությունները և բազմալեզու կարողությունները:

Գծապատկերներ, որոնք համեմատում են Qwen2-72B-Instruct-ը և Llama3-70B-Instruct-ը մի քանի ծրագրավորման լեզուներով կոդավորման և տարբեր քննությունների մաթեմատիկայի մեջ:

Qwen2-72B-Instruct ընդդեմ Llama3-70B-Instruct կոդավորման և մաթեմատիկայի կատարման

Չնայած իր նախորդի՝ Qwen1.5-110B-ի համեմատ ավելի քիչ պարամետրերի, Qwen2-72B-ն ցուցադրում է բարձր արդյունավետություն՝ վկայում է Alibaba-ի մանրակրկիտ մշակված տվյալների հավաքածուների և օպտիմիզացված ուսուցման մեթոդաբանության արդյունավետության մասին:

Անվտանգություն և պատասխանատվություն. համահունչ մարդկային արժեքներին

Qwen2-72B-Instruct-ը խստորեն գնահատվել է անօրինական գործունեության, խարդախության, պոռնոգրաֆիայի և գաղտնիության խախտումների հետ կապված պոտենցիալ վնասակար հարցումները լուծելու ունակության համար: Արդյունքները հուսադրող են. Qwen2-72B-Instruct-ը համեմատելի է բարձր գնահատված GPT-4 մոդելի հետ անվտանգության առումով՝ ցուցադրելով վնասակար արձագանքների զգալիորեն ավելի ցածր համամասնություններ՝ համեմատած Mistral-8x22B-ի նման այլ խոշոր մոդելների հետ:

Այս ձեռքբերումը ընդգծում է Alibaba-ի հանձնառությունը զարգացնելու AI համակարգեր, որոնք համահունչ են մարդկային արժեքներին՝ ապահովելով, որ Qwen2-ը ոչ միայն հզոր է, այլև վստահելի և պատասխանատու:

Լիցենզավորում և բաց կոդով պարտավորություն

Մի քայլով, որն ավելի է ուժեղացնում Qwen2-ի ազդեցությունը, Alibaba-ն որդեգրել է լիցենզավորման բաց կոդով մոտեցում: Մինչ Qwen2-72B-ը և նրա հրահանգներով կարգավորված մոդելները պահպանում են օրիգինալ Qianwen լիցենզիան, մնացած մոդելները՝ Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B և Qwen2-57B-A14B, լիցենզավորվել են թույլատրելի Apache 2.0 լիցենզիայի ներքո: .

Ակնկալվում է, որ այս ուժեղացված բացությունը կարագացնի Qwen2 մոդելների կիրառումը և առևտրային օգտագործումն ամբողջ աշխարհում՝ խթանելով համագործակցությունն ու նորարարությունը համաշխարհային AI համայնքում:

Օգտագործում և իրականացում

Qwen2 մոդելների օգտագործումը պարզ է՝ շնորհիվ դրանց ինտեգրման հանրաճանաչ շրջանակների, ինչպիսիք են Գրկելով դեմքը. Ահա եզրակացության համար Qwen2-7B-Chat-beta-ի օգտագործման օրինակ.

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Կոդի այս հատվածը ցույց է տալիս, թե ինչպես կարգավորել և ստեղծել տեքստ՝ օգտագործելով Qwen2-7B-Chat մոդելը: հետ ինտեգրումը Գրկելով դեմքը դարձնում է այն հասանելի և հեշտ է փորձարկել:

Qwen2 vs. Llama 3. Համեմատական ​​վերլուծություն

Մինչդեռ Qwen2 և Մետայի Լլամա 3 երկուսն էլ լեզվական ահռելի մոդելներ են, դրանք ցուցադրում են հստակ ուժեղ կողմեր ​​և փոխզիջումներ:

Qwen2-72B, Llama3-70B, Mixtral-8x22B և Qwen1.5-110B-ի կատարողականի համեմատական ​​աղյուսակը մի քանի հենանիշերի վրա

Qwen2-72B, Llama3-70B, Mixtral-8x22B և Qwen1.5-110B համեմատական ​​կատարողական աղյուսակ տարբեր հենանիշերի, ներառյալ MMLU, MMLU-Pro, GPQA և այլն:

Ահա համեմատական ​​վերլուծություն, որը կօգնի ձեզ հասկանալ դրանց հիմնական տարբերությունները.

Բազմալեզու հնարավորություններQwen2-ը հստակ առավելություն ունի բազմալեզու աջակցության առումով: Նրա ուսուցումը 27 լրացուցիչ լեզուներով տվյալների վրա, բացի անգլերենից և չինարենից, թույլ է տալիս Qwen2-ին գերազանցել միջմշակութային հաղորդակցությունը և բազմալեզու սցենարները: Ի հակադրություն, Llama 3-ի բազմալեզու հնարավորություններն ավելի քիչ են արտահայտված, ինչը պոտենցիալ սահմանափակում է դրա արդյունավետությունը տարբեր լեզվական համատեքստերում:

Կոդավորման և մաթեմատիկայի իմացությունԵ՛վ Qwen2, և՛ Լամա 3 ցուցադրել տպավորիչ կոդավորում և մաթեմատիկական ունակություններ: Այնուամենայնիվ, Qwen2-72B-Instruct-ը, ըստ երևույթին, թեթև առավելություն ունի՝ շնորհիվ այս տիրույթների լայնածավալ, բարձրորակ տվյալների հավաքածուների իր խիստ ուսուցման: Alibaba-ի կենտրոնացումը այս ոլորտներում Qwen2-ի հնարավորությունների ընդլայնման վրա կարող է նրան առավելություն տալ մասնագիտացված հավելվածների համար, որոնք ներառում են կոդավորում կամ մաթեմատիկական խնդիրների լուծում:

Համատեքստի երկար ըմբռնումQwen2-7B-Instruct և Qwen2-72B-Instruct մոդելները պարծենում են մինչև 128K նշանների համատեքստի երկարությունները մշակելու տպավորիչ ունակությամբ: Այս հատկությունը հատկապես արժեքավոր է այն ծրագրերի համար, որոնք պահանջում են երկարատև փաստաթղթերի կամ խիտ տեխնիկական նյութերի խորը պատկերացում: Llama 3-ը, թեև ի վիճակի է մշակել երկար հաջորդականություններ, կարող է չհամապատասխանել Qwen2-ի աշխատանքին այս կոնկրետ ոլորտում:

Թեև և՛ Qwen2-ը, և՛ Llama 3-ը ցուցադրում են ժամանակակից կատարողականություն, Qwen2-ի բազմազան մոդելների շարքը, որը տատանվում է 0.5B-ից մինչև 72B պարամետրերով, առաջարկում է ավելի մեծ ճկունություն և մասշտաբայնություն: Այս բազմակողմանիությունը թույլ է տալիս օգտվողներին ընտրել մոդելի չափը, որը լավագույնս համապատասխանում է նրանց հաշվողական ռեսուրսներին և կատարողականի պահանջներին: Բացի այդ, Alibaba-ի շարունակական ջանքերը՝ Qwen2-ն ավելի մեծ մոդելների հասցնելու համար, կարող են ավելի մեծացնել նրա հնարավորությունները՝ ապագայում պոտենցիալ առաջ անցնելով Llama 3-ից:

Տեղակայում և ինտեգրում. Qwen2-ի արդիականացում

Qwen2-ի համատարած ընդունումն ու ինտեգրումը հեշտացնելու համար Alibaba-ն նախաձեռնողական քայլեր է ձեռնարկել՝ ապահովելու անխափան տեղակայումը տարբեր հարթակներում և շրջանակներում: Qwen-ի թիմը սերտորեն համագործակցել է բազմաթիվ երրորդ կողմի նախագծերի և կազմակերպությունների հետ՝ հնարավորություն տալով օգտագործել Qwen2-ը գործիքների և շրջանակների լայն շրջանակի հետ համատեղ:

Նուրբ կարգավորում և քվանտացումԵրրորդ կողմի նախագծերը, ինչպիսիք են Axolotl-ը, Llama-Factory-ը, Firefly-ը, Swift-ը և XTuner-ը, օպտիմիզացվել են Qwen2 մոդելների ճշգրտման համար աջակցելու համար՝ հնարավորություն տալով օգտվողներին հարմարեցնել մոդելները իրենց հատուկ առաջադրանքներին և տվյալների հավաքածուներին: Բացի այդ, քվանտացման գործիքները, ինչպիսիք են AutoGPTQ, AutoAWQև Նյարդային կոմպրեսորը հարմարեցվել են Qwen2-ի հետ աշխատելու համար՝ հեշտացնելով արդյունավետ տեղակայումը ռեսուրսներով սահմանափակված սարքերում:

Տեղակայում և եզրակացությունQwen2 մոդելները կարող են տեղակայվել և սպասարկվել՝ օգտագործելով տարբեր շրջանակներ, այդ թվում vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoև TGI: Այս շրջանակներն առաջարկում են օպտիմալացված եզրակացության խողովակաշարեր՝ հնարավորություն տալով Qwen2-ի արդյունավետ և մասշտաբային տեղակայումը արտադրական միջավայրերում:

API հարթակներ և տեղական կատարումՄշակողների համար, ովքեր ձգտում են ինտեգրել Qwen2-ն իրենց հավելվածներում, API հարթակները, ինչպիսիք են Together-ը, Fireworks-ը և OpenRouter-ը, հարմարավետ մուտք են ապահովում մոդելների հնարավորություններին: Որպես այլընտրանք, տեղական կատարումն ապահովվում է այնպիսի շրջանակների միջոցով, ինչպիսիք են MLX, Llama.cpp, Օլլամաև LM Studio-ն՝ թույլ տալով օգտվողներին գործարկել Qwen2-ն իրենց տեղական մեքենաներում՝ միաժամանակ պահպանելով տվյալների գաղտնիության և անվտանգության վերահսկողությունը:

Գործակալ և RAG FrameworksQwen2-ի աջակցությունը գործիքի օգտագործման և գործակալի հնարավորությունների համար ամրապնդվում է այնպիսի շրջանակներով, ինչպիսիք են. CallIndex, CrewAI և OpenDevin. Այս շրջանակները հնարավորություն են տալիս ստեղծել մասնագիտացված AI գործակալներ և ինտեգրել Qwen2-ին որոնման ավելացված սերունդ (RAG) խողովակաշարեր՝ ընդլայնելով կիրառությունների և օգտագործման դեպքերի շրջանակը։

Հայացք դեպի առաջ. ապագա զարգացումներ և հնարավորություններ

Alibaba-ի տեսլականը Qwen2-ի համար ավելի հեռու է ընթացիկ թողարկումից: Թիմն ակտիվորեն ուսուցանում է ավելի մեծ մոդելներ՝ ուսումնասիրելու մոդելների մասշտաբավորման սահմանները, որոնք լրացվում են տվյալների ընդլայնման շարունակական ջանքերով: Ավելին, ծրագրեր են իրականացվում Qwen2-ը ընդլայնելու մուլտիմոդալ AI-ի տիրույթ՝ հնարավորություն տալով ինտեգրել տեսողության և աուդիո ըմբռնման հնարավորությունները:

Քանի որ բաց կոդով AI էկոհամակարգը շարունակում է բարգավաճել, Qwen2-ը առանցքային դեր կխաղա՝ ծառայելով որպես հզոր ռեսուրս հետազոտողների, մշակողների և կազմակերպությունների համար, ովքեր ձգտում են զարգացնել բնական լեզվի մշակման և արհեստական ​​ինտելեկտի արդի վիճակը:

Ես անցկացրել եմ վերջին հինգ տարիները՝ ընկղմվելով մեքենայական ուսուցման և խորը ուսուցման հետաքրքրաշարժ աշխարհում: Իմ կիրքն ու փորձառությունը ստիպել են ինձ ներդրում ունենալ ավելի քան 50 տարբեր ծրագրային ապահովման ինժեներական նախագծերում՝ հատուկ ուշադրություն դարձնելով AI/ML-ին: Իմ շարունակական հետաքրքրասիրությունը նաև ինձ ձգում է դեպի Բնական լեզվի մշակումը, մի ոլորտ, որը ես ցանկանում եմ հետագայում ուսումնասիրել: