stub Qwen2 - Alibabas seneste flersprogede sprogmodel udfordrer SOTA som Llama 3 - Unite.AI
Følg os

Kunstig intelligens

Qwen2 – Alibabas seneste flersprogede sprogmodel udfordrer SOTA som Llama 3

mm
Opdateret on
evolution fra Qwen1.5 til Qwen2

Efter måneders forventning, Alibabas Qwen-team har endelig afsløret Qwen2 – den næste udvikling af deres kraftfulde sprogmodelserie. Qwen2 repræsenterer et betydeligt spring fremad, og kan prale af banebrydende fremskridt, der potentielt kan placere den som det bedste alternativ til Meta's fejrede Lama 3 model. I dette tekniske dyk vil vi udforske nøglefunktionerne, ydeevnebenchmarks og innovative teknikker, der gør Qwen2 til en formidabel udfordrer inden for store sprogmodeller (LLM'er).

Opskalering: Introduktion af Qwen2 Model Lineup

Kernen i Qwen2 ligger en mangfoldig serie af modeller, der er skræddersyet til at imødekomme forskellige beregningsmæssige krav. Serien omfatter fem forskellige modelstørrelser: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B og flagskibet Qwen2-72B. Denne række af muligheder henvender sig til et bredt spektrum af brugere, fra dem med beskedne hardwareressourcer til dem med adgang til avanceret beregningsinfrastruktur.

En af Qwen2s iøjnefaldende funktioner er dens flersprogede muligheder. Mens den forrige Qwen1.5 model udmærkede sig på engelsk og kinesisk, Qwen2 er blevet trænet i data, der spænder over imponerende 27 ekstra sprog. Dette flersprogede træningsprogram inkluderer sprog fra forskellige regioner som Vesteuropa, Øst- og Centraleuropa, Mellemøsten, Østasien og Sydasien.

Tabel, der viser de sprog, der understøttes af Qwen2-modeller, kategoriseret efter regioner

Sprog understøttet af Qwen2-modeller, kategoriseret efter geografiske områder

Ved at udvide sit sproglige repertoire demonstrerer Qwen2 en enestående evne til at forstå og generere indhold på tværs af en lang række sprog, hvilket gør det til et uvurderligt værktøj til globale applikationer og tværkulturel kommunikation.

 

Tabel, der sammenligner Qwen2-modeller efter parametre, ikke-indlejringsparametre, GQA, bindeindlejring og kontekstlængde

Specifikationer for Qwen2-modeller inklusive parametre, GQA og kontekstlængde.

Adressering af kodeskift: En flersproget udfordring

I flersprogede sammenhænge er fænomenet code-switching – praksis med at veksle mellem forskellige sprog inden for en enkelt samtale eller ytring – en almindelig begivenhed. Qwen2 er blevet omhyggeligt trænet til at håndtere kode-switch-scenarier, hvilket reducerer tilknyttede problemer betydeligt og sikrer jævne overgange mellem sprog.

Evalueringer ved hjælp af prompter, der typisk inducerer kodeskift, har bekræftet Qwen2s væsentlige forbedring på dette domæne, et vidnesbyrd om Alibabas forpligtelse til at levere en ægte flersproget sprogmodel.

Fremragende i kodning og matematik

Qwen2 har bemærkelsesværdige evner inden for områderne kodning og matematik, områder der traditionelt har stillet udfordringer for sprogmodeller. Ved at udnytte omfattende datasæt af høj kvalitet og optimerede træningsmetoder udviser Qwen2-72B-Instruct, den instruktionstunede variant af flagskibsmodellen, enestående ydeevne i løsning af matematiske problemer og kodningsopgaver på tværs af forskellige programmeringssprog.

Udvidelse af kontekstforståelse

En af de mest imponerende egenskaber ved Qwen2 er dens evne til at forstå og behandle udvidede kontekstsekvenser. Mens de fleste sprogmodeller kæmper med tekst i lang form, er Qwen2-7B-Instruct- og Qwen2-72B-Instruct-modellerne blevet udviklet til at håndtere kontekstlængder på op til 128K tokens.

Denne bemærkelsesværdige egenskab er en game-changer for applikationer, der kræver en dybdegående forståelse af lange dokumenter, såsom juridiske kontrakter, forskningspapirer eller tætte tekniske manualer. Ved effektivt at behandle udvidede kontekster kan Qwen2 give mere præcise og omfattende svar, der låser op for nye grænser i naturlig sprogbehandling.

Diagram, der viser faktasøgningsnøjagtigheden af ​​Qwen2-modeller på tværs af forskellige kontekstlængder og dokumentdybder

Nøjagtighed af Qwen2-modeller til at hente fakta fra dokumenter på tværs af forskellige kontekstlængder og dokumentdybder.

Dette diagram viser Qwen2-modellernes evne til at hente fakta fra dokumenter af forskellig kontekstlængde og -dybde.

Arkitektoniske innovationer: Opmærksomhed på gruppeforespørgsler og optimerede indlejringer

Under motorhjelmen inkorporerer Qwen2 adskillige arkitektoniske innovationer, der bidrager til dens exceptionelle ydeevne. En sådan innovation er vedtagelsen af ​​Group Query Attention (GQA) på tværs af alle modelstørrelser. GQA tilbyder hurtigere inferenshastigheder og reduceret hukommelsesforbrug, hvilket gør Qwen2 mere effektiv og tilgængelig for en bredere række af hardwarekonfigurationer.

Derudover har Alibaba optimeret indlejringerne til mindre modeller i Qwen2-serien. Ved at binde indlejringer har teamet formået at reducere disse modellers hukommelsesfodaftryk, hvilket muliggør deres udrulning på mindre kraftfuld hardware og samtidig bibeholde ydeevne af høj kvalitet.

Benchmarking Qwen2: Udkonkurrerende state-of-the-art modeller

Qwen2 har en bemærkelsesværdig ydeevne på tværs af en bred vifte af benchmarks. Sammenlignende evalueringer afslører, at Qwen2-72B, den største model i serien, overgår førende konkurrenter som Llama-3-70B på kritiske områder, herunder naturlig sprogforståelse, videnstilegnelse, kodningsfærdigheder, matematiske færdigheder og flersprogede evner.

Diagrammer, der sammenligner Qwen2-72B-Instruct og Llama3-70B-Instruct i kodning på tværs af flere programmeringssprog og i matematik på tværs af forskellige eksamener

Qwen2-72B-Instruct versus Llama3-70B-Instruct i kodning og matematisk præstation

På trods af at de har færre parametre end sin forgænger, Qwen1.5-110B, udviser Qwen2-72B overlegen ydeevne, et vidnesbyrd om effektiviteten af ​​Alibabas omhyggeligt kurerede datasæt og optimerede træningsmetoder.

Sikkerhed og ansvar: Tilpasning til menneskelige værdier

Qwen2-72B-Instruct er blevet nøje evalueret for sin evne til at håndtere potentielt skadelige forespørgsler relateret til ulovlige aktiviteter, svindel, pornografi og krænkelser af privatlivets fred. Resultaterne er opmuntrende: Qwen2-72B-Instruct præsterer sammenligneligt med den højt respekterede GPT-4-model med hensyn til sikkerhed, og udviser betydeligt lavere andel af skadelige reaktioner sammenlignet med andre store modeller som Mistral-8x22B.

Denne præstation understreger Alibabas forpligtelse til at udvikle AI-systemer, der stemmer overens med menneskelige værdier, hvilket sikrer, at Qwen2 ikke kun er kraftfuld, men også pålidelig og ansvarlig.

Licensering og åben kildekode-forpligtelse

I et træk, der yderligere forstærker virkningen af ​​Qwen2, har Alibaba vedtaget en open source-tilgang til licensering. Mens Qwen2-72B og dens instruktionstunede modeller beholder den originale Qianwen-licens, er de resterende modeller – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B og Qwen2-57B-A14B – blevet licenseret under den tilladelige Apache 2.0-licens .

Denne øgede åbenhed forventes at fremskynde anvendelsen og den kommercielle brug af Qwen2-modeller på verdensplan, hvilket fremmer samarbejde og innovation inden for det globale AI-fællesskab.

Anvendelse og implementering

At bruge Qwen2-modeller er ligetil, takket være deres integration med populære rammer som f.eks Knusende ansigt. Her er et eksempel på brug af Qwen2-7B-Chat-beta til inferens:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Dette kodestykke demonstrerer, hvordan man opsætter og genererer tekst ved hjælp af Qwen2-7B-Chat-modellen. Integrationen med Knusende ansigt gør det tilgængeligt og nemt at eksperimentere med.

Qwen2 vs. Llama 3: En sammenlignende analyse

Mens Qwen2 og Meta's Lama 3 er begge formidable sprogmodeller, de udviser tydelige styrker og afvejninger.

Ydeevnesammenligningsdiagram for Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tværs af flere benchmarks

Et sammenlignende præstationsdiagram af Qwen2-72B, Llama3-70B, Mixtral-8x22B og Qwen1.5-110B på tværs af forskellige benchmarks, herunder MMLU, MMLU-Pro, GPQA og andre.

Her er en sammenlignende analyse for at hjælpe dig med at forstå deres vigtigste forskelle:

Flersprogede kapaciteter: Qwen2 har en klar fordel med hensyn til flersproget support. Dets træning i data, der spænder over 27 yderligere sprog, ud over engelsk og kinesisk, gør det muligt for Qwen2 at udmærke sig i tværkulturel kommunikation og flersprogede scenarier. I modsætning hertil er Llama 3's flersprogede evner mindre udtalte, hvilket potentielt begrænser dets effektivitet i forskellige sproglige sammenhænge.

Kodning og matematikfærdighed: Både Qwen2 og Lama 3 demonstrere imponerende kodning og matematiske evner. Qwen2-72B-Instruct ser dog ud til at have en lille fordel på grund af sin strenge træning i omfattende datasæt af høj kvalitet i disse domæner. Alibabas fokus på at forbedre Qwen2's muligheder på disse områder kan give det en fordel til specialiserede applikationer, der involverer kodning eller matematisk problemløsning.

Lang kontekstforståelse: Qwen2-7B-Instruct- og Qwen2-72B-Instruct-modeller kan prale af en imponerende evne til at håndtere kontekstlængder på op til 128K tokens. Denne funktion er især værdifuld til applikationer, der kræver dybdegående forståelse af lange dokumenter eller tætte tekniske materialer. Selvom Llama 3 er i stand til at behandle lange sekvenser, matcher den muligvis ikke Qwen2's ydeevne på dette specifikke område.

Mens både Qwen2 og Llama 3 udviser state-of-the-art ydeevne, tilbyder Qwen2's mangfoldige modelprogram, der spænder fra 0.5B til 72B parametre, større fleksibilitet og skalerbarhed. Denne alsidighed giver brugerne mulighed for at vælge den modelstørrelse, der passer bedst til deres beregningsressourcer og ydeevnekrav. Derudover kan Alibabas igangværende bestræbelser på at skalere Qwen2 til større modeller yderligere forbedre dets muligheder, hvilket potentielt kan overgå Llama 3 i fremtiden.

Implementering og integration: Strømlining af Qwen2-adoption

For at lette den udbredte indførelse og integration af Qwen2 har Alibaba taget proaktive skridt for at sikre problemfri implementering på tværs af forskellige platforme og rammer. Qwen-teamet har samarbejdet tæt med adskillige tredjepartsprojekter og -organisationer, hvilket gør det muligt at udnytte Qwen2 i forbindelse med en lang række værktøjer og rammer.

Finjustering og kvantisering: Tredjepartsprojekter som Axolotl, Llama-Factory, Firefly, Swift og XTuner er blevet optimeret til at understøtte finjustering af Qwen2-modeller, hvilket gør det muligt for brugere at skræddersy modellerne til deres specifikke opgaver og datasæt. Derudover kan kvantiseringsværktøjer som AutoGPTQ, AutoAWQ, og Neural Compressor er blevet tilpasset til at fungere med Qwen2, hvilket letter effektiv implementering på ressourcebegrænsede enheder.

Implementering og inferens: Qwen2-modeller kan implementeres og betjenes ved hjælp af en række forskellige rammer, herunder vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoog TGI. Disse rammer tilbyder optimerede inferenspipelines, der muliggør effektiv og skalerbar implementering af Qwen2 i produktionsmiljøer.

API-platforme og lokal udførelse: For udviklere, der søger at integrere Qwen2 i deres applikationer, giver API-platforme som Together, Fireworks og OpenRouter nem adgang til modellernes muligheder. Alternativt understøttes lokal eksekvering gennem rammer som MLX, Llama.cpp, Ollama, og LM Studio, der giver brugerne mulighed for at køre Qwen2 på deres lokale maskiner, mens de bevarer kontrol over databeskyttelse og sikkerhed.

Agent og RAG Frameworks: Qwen2's understøttelse af værktøjsbrug og agentkapaciteter er understøttet af rammer som Lamaindeks, CrewAI og ÅbnDevin. Disse rammer muliggør oprettelse af specialiserede AI-agenter og integration af Qwen2 i retrieval-augmented generation (RAG) rørledninger, hvilket udvider rækken af ​​applikationer og anvendelsesmuligheder.

Fremadrettet: Fremtidig udvikling og muligheder

Alibabas vision for Qwen2 rækker langt ud over den nuværende udgivelse. Holdet træner aktivt større modeller for at udforske grænserne for modelskalering, suppleret med en løbende dataskaleringsindsats. Desuden er der planer om at udvide Qwen2 til multimodal AI, hvilket muliggør integration af vision og lydforståelse.

I takt med at open source AI-økosystemet fortsætter med at trives, vil Qwen2 spille en central rolle og tjene som en stærk ressource for forskere, udviklere og organisationer, der søger at fremme det nyeste inden for naturlig sprogbehandling og kunstig intelligens.

Jeg har brugt de sidste fem år på at fordybe mig i den fascinerende verden af ​​Machine Learning og Deep Learning. Min passion og ekspertise har ført mig til at bidrage til over 50 forskellige software engineering projekter, med særligt fokus på AI/ML. Min vedvarende nysgerrighed har også trukket mig hen imod Natural Language Processing, et felt jeg er ivrig efter at udforske yderligere.