stomp Qwen2 - Alibaba's nieuwste meertalige taalmodel daagt SOTA uit zoals Llama 3 - Unite.AI
Verbind je met ons

Artificial Intelligence

Qwen2 – Alibaba's nieuwste meertalige taalmodel daagt SOTA uit zoals Llama 3

mm
Bijgewerkt on
evolutie van Qwen1.5 naar Qwen2

Na maanden van verwachting, Alibaba's Qwen-team heeft eindelijk Qwen2 onthuld – de volgende evolutie van hun krachtige taalmodelreeks. Qwen2 vertegenwoordigt een aanzienlijke sprong voorwaarts en beschikt over baanbrekende ontwikkelingen die het potentieel zouden kunnen positioneren als het beste alternatief voor Meta's gevierde Lama 3 model. In deze technische diepgaande duik onderzoeken we de belangrijkste kenmerken, prestatiebenchmarks en innovatieve technieken die Qwen2 tot een geduchte concurrent maken op het gebied van grote taalmodellen (LLM's).

Opschaling: introductie van de Qwen2-modellenreeks

In de kern van Qwen2 ligt een gevarieerde reeks modellen die zijn afgestemd op verschillende computervereisten. De serie omvat vijf verschillende modelgroottes: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B en het vlaggenschip Qwen2-72B. Deze reeks opties is geschikt voor een breed spectrum aan gebruikers, van gebruikers met bescheiden hardwarebronnen tot gebruikers met toegang tot de allernieuwste computerinfrastructuur.

Een van de opvallende kenmerken van Qwen2 zijn de meertalige mogelijkheden. Terwijl de vorige Qwen1.5 model uitblonk in het Engels en Chinees, is Qwen2 getraind op gegevens in maar liefst 27 extra talen. Dit meertalige trainingsregime omvat talen uit diverse regio's zoals West-Europa, Oost- en Centraal-Europa, het Midden-Oosten, Oost-Azië en Zuid-Azië.

Tabel met de talen die worden ondersteund door Qwen2-modellen, gecategoriseerd per regio

Talen ondersteund door Qwen2-modellen, gecategoriseerd per geografische regio

Door zijn taalrepertoire uit te breiden, demonstreert Qwen2 een uitzonderlijk vermogen om inhoud in een breed scala aan talen te begrijpen en te genereren, waardoor het een hulpmiddel van onschatbare waarde is voor mondiale toepassingen en interculturele communicatie.

 

Tabel waarin Qwen2-modellen worden vergeleken op basis van parameters, niet-inbeddingsparameters, GQA, tie-inbedding en contextlengte

Specificaties van Qwen2-modellen inclusief parameters, GQA en contextlengte.

Code-switching aanpakken: een meertalige uitdaging

In meertalige contexten is het fenomeen van code-switching – de praktijk van het wisselen tussen verschillende talen binnen een enkel gesprek of uiting – een veel voorkomend verschijnsel. Qwen2 is zorgvuldig getraind om met code-switching-scenario's om te gaan, waardoor de bijbehorende problemen aanzienlijk worden verminderd en soepele overgangen tussen talen worden gegarandeerd.

Evaluaties waarbij gebruik wordt gemaakt van prompts die doorgaans tot code-switching leiden, hebben de substantiële verbetering van Qwen2 op dit gebied bevestigd, een bewijs van Alibaba's toewijding aan het leveren van een echt meertalig taalmodel.

Excelleren in coderen en wiskunde

Qwen2 beschikt over opmerkelijke capaciteiten op het gebied van coderen en wiskunde, gebieden die traditioneel uitdagingen voor taalmodellen hebben opgeleverd. Door gebruik te maken van uitgebreide datasets van hoge kwaliteit en geoptimaliseerde trainingsmethodologieën, vertoont Qwen2-72B-Instruct, de op instructies afgestemde variant van het vlaggenschipmodel, uitstekende prestaties bij het oplossen van wiskundige problemen en codeertaken in verschillende programmeertalen.

Contextbegrip uitbreiden

Een van de meest indrukwekkende kenmerken van Qwen2 is het vermogen om uitgebreide contextreeksen te begrijpen en te verwerken. Terwijl de meeste taalmodellen worstelen met lange tekst, zijn de modellen Qwen2-7B-Instruct en Qwen2-72B-Instruct ontworpen om contextlengtes tot 128K tokens te verwerken.

Deze opmerkelijke mogelijkheid is een game-changer voor toepassingen die een diepgaand begrip van lange documenten vereisen, zoals juridische contracten, onderzoeksdocumenten of uitgebreide technische handleidingen. Door uitgebreide contexten effectief te verwerken, kan Qwen2 nauwkeurigere en uitgebreidere antwoorden bieden, waardoor nieuwe grenzen worden ontsloten op het gebied van natuurlijke taalverwerking.

Grafiek die de nauwkeurigheid van het ophalen van feiten toont van Qwen2-modellen over verschillende contextlengtes en documentdieptes

Nauwkeurigheid van Qwen2-modellen bij het ophalen van feiten uit documenten over verschillende contextlengtes en documentdieptes.

Deze grafiek toont het vermogen van Qwen2-modellen om feiten op te halen uit documenten met verschillende contextlengtes en -dieptes.

Architecturale innovaties: aandacht voor groepsquery's en geoptimaliseerde inbedding

Onder de motorkap bevat Qwen2 verschillende architecturale innovaties die bijdragen aan zijn uitzonderlijke prestaties. Eén van die innovaties is de adoptie van Group Query Attention (GQA) in alle modelgroottes. GQA biedt hogere inferentiesnelheden en minder geheugengebruik, waardoor Qwen2 efficiënter en toegankelijker wordt voor een breder scala aan hardwareconfiguraties.

Bovendien heeft Alibaba de inbedding voor kleinere modellen in de Qwen2-serie geoptimaliseerd. Door het koppelen van inbedding is het team erin geslaagd de geheugenvoetafdruk van deze modellen te verkleinen, waardoor ze op minder krachtige hardware kunnen worden ingezet, terwijl de prestaties van hoge kwaliteit behouden blijven.

Benchmarking Qwen2: beter presteren dan de modernste modellen

Qwen2 presteert opmerkelijk goed in een breed scala aan benchmarks. Uit vergelijkende evaluaties blijkt dat Qwen2-72B, het grootste model in de serie, beter presteert dan toonaangevende concurrenten zoals Llama-3-70B op kritieke gebieden, waaronder begrip van natuurlijke taal, kennisverwerving, codeervaardigheid, wiskundige vaardigheden en meertalige vaardigheden.

Grafieken waarin Qwen2-72B-Instruct en Llama3-70B-Instruct worden vergeleken in codering in verschillende programmeertalen en in wiskunde in verschillende examens

Qwen2-72B-Instrueer versus Llama3-70B-Instrueer in codeer- en rekenprestaties

Ondanks dat hij minder parameters heeft dan zijn voorganger, Qwen1.5-110B, vertoont de Qwen2-72B superieure prestaties, een bewijs van de doeltreffendheid van Alibaba's zorgvuldig samengestelde datasets en geoptimaliseerde trainingsmethodologieën.

Veiligheid en verantwoordelijkheid: afstemmen op menselijke waarden

Qwen2-72B-Instruct is rigoureus geëvalueerd op zijn vermogen om potentieel schadelijke vragen met betrekking tot illegale activiteiten, fraude, pornografie en privacyschendingen af ​​te handelen. De resultaten zijn bemoedigend: Qwen2-72B-Instruct presteert qua veiligheid vergelijkbaar met het hoog aangeschreven GPT-4-model en vertoont aanzienlijk minder schadelijke reacties vergeleken met andere grote modellen zoals Mistral-8x22B.

Deze prestatie onderstreept Alibaba's toewijding aan het ontwikkelen van AI-systemen die aansluiten bij menselijke waarden, en ervoor zorgt dat Qwen2 niet alleen krachtig maar ook betrouwbaar en verantwoordelijk is.

Licentieverlening en open-sourceverplichting

In een stap die de impact van Qwen2 verder vergroot, heeft Alibaba een open-sourcebenadering van licentieverlening aangenomen. Terwijl Qwen2-72B en zijn op instructies afgestemde modellen de originele Qianwen-licentie behouden, zijn de overige modellen – Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B en Qwen2-57B-A14B – gelicentieerd onder de tolerante Apache 2.0-licentie .

Verwacht wordt dat deze grotere openheid de toepassing en het commerciële gebruik van Qwen2-modellen wereldwijd zal versnellen, waardoor samenwerking en innovatie binnen de mondiale AI-gemeenschap wordt bevorderd.

Gebruik en implementatie

Het gebruik van Qwen2-modellen is eenvoudig, dankzij hun integratie met populaire raamwerken zoals Gezicht knuffelen. Hier is een voorbeeld van het gebruik van Qwen2-7B-Chat-beta voor gevolgtrekking:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Dit codefragment laat zien hoe u tekst kunt instellen en genereren met behulp van het Qwen2-7B-Chat-model. De integratie met Gezicht knuffelen maakt het toegankelijk en gemakkelijk om mee te experimenteren.

Qwen2 versus Lama 3: een vergelijkende analyse

Terwijl Qwen2 en Meta's lama 3 Het zijn beide formidabele taalmodellen, maar ze vertonen duidelijke sterke punten en compromissen.

Prestatievergelijkingsgrafiek van Qwen2-72B, Llama3-70B, Mixtral-8x22B en Qwen1.5-110B in meerdere benchmarks

Een vergelijkende prestatiegrafiek van Qwen2-72B, Llama3-70B, Mixtral-8x22B en Qwen1.5-110B voor verschillende benchmarks, waaronder MMLU, MMLU-Pro, GPQA en andere.

Hier is een vergelijkende analyse om u te helpen de belangrijkste verschillen te begrijpen:

Meertalige mogelijkheden: Qwen2 heeft een duidelijk voordeel op het gebied van meertalige ondersteuning. Dankzij de training op het gebied van gegevens in 27 extra talen, naast Engels en Chinees, kan Qwen2 uitblinken in interculturele communicatie en meertalige scenario's. Daarentegen zijn de meertalige capaciteiten van Llama 3 minder uitgesproken, waardoor de effectiviteit ervan in diverse taalcontexten mogelijk wordt beperkt.

Codering en wiskundevaardigheid: Zowel Qwen2 als Lama 3 demonstreren indrukwekkende codeer- en wiskundige vaardigheden. Qwen2-72B-Instruct lijkt echter een kleine voorsprong te hebben, dankzij de rigoureuze training in uitgebreide, hoogwaardige datasets in deze domeinen. De focus van Alibaba op het verbeteren van de mogelijkheden van Qwen2 op deze gebieden zou het een voordeel kunnen opleveren voor gespecialiseerde toepassingen op het gebied van coderen of het oplossen van wiskundige problemen.

Begrip van lange contexten: Qwen2-7B-Instruct- en Qwen2-72B-Instruct-modellen beschikken over een indrukwekkend vermogen om contextlengtes tot 128K-tokens te verwerken. Deze functie is vooral waardevol voor toepassingen die een diepgaand begrip van lange documenten of ingewikkelde technische materialen vereisen. Llama 3 kan weliswaar lange reeksen verwerken, maar kan op dit specifieke gebied mogelijk niet tippen aan de prestaties van Qwen2.

Terwijl zowel de Qwen2 als de Llama 3 state-of-the-art prestaties vertonen, biedt de diverse modellenreeks van Qwen2, variërend van 0.5B tot 72B parameters, grotere flexibiliteit en schaalbaarheid. Dankzij deze veelzijdigheid kunnen gebruikers de modelgrootte kiezen die het beste past bij hun rekenbronnen en prestatie-eisen. Bovendien zouden de voortdurende inspanningen van Alibaba om Qwen2 op te schalen naar grotere modellen de mogelijkheden ervan verder kunnen vergroten, waardoor Llama 3 in de toekomst mogelijk wordt overtroffen.

Implementatie en integratie: stroomlijning van de adoptie van Qwen2

Om de wijdverspreide acceptatie en integratie van Qwen2 te vergemakkelijken, heeft Alibaba proactieve stappen ondernomen om een ​​naadloze implementatie op verschillende platforms en raamwerken te garanderen. Het Qwen-team heeft nauw samengewerkt met talrijke projecten en organisaties van derden, waardoor Qwen2 kan worden ingezet in combinatie met een breed scala aan tools en raamwerken.

Verfijning en kwantisering: Projecten van derden zoals Axolotl, Llama-Factory, Firefly, Swift en XTuner zijn geoptimaliseerd om het verfijnen van Qwen2-modellen te ondersteunen, waardoor gebruikers de modellen kunnen afstemmen op hun specifieke taken en datasets. Bovendien zijn kwantiseringstools zoals AutoGPTQ, AutoAWQ, en Neural Compressor zijn aangepast om met Qwen2 te werken, waardoor efficiënte implementatie op apparaten met beperkte middelen mogelijk wordt gemaakt.

Implementatie en gevolgtrekking: Qwen2-modellen kunnen worden ingezet en bediend met behulp van een verscheidenheid aan raamwerken, waaronder vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVinoen TGI. Deze raamwerken bieden geoptimaliseerde inferentiepijplijnen, waardoor een efficiënte en schaalbare implementatie van Qwen2 in productieomgevingen mogelijk wordt.

API-platforms en lokale uitvoering: Voor ontwikkelaars die Qwen2 in hun applicaties willen integreren, bieden API-platforms zoals Together, Fireworks en OpenRouter gemakkelijke toegang tot de mogelijkheden van de modellen. Als alternatief wordt lokale uitvoering ondersteund via raamwerken zoals MLX, Llama.cpp, Ollama, en LM Studio, waardoor gebruikers Qwen2 op hun lokale machines kunnen draaien terwijl ze de controle behouden over gegevensprivacy en beveiliging.

Agent- en RAG-frameworks: Qwen2's ondersteuning voor het gebruik van tools en agentmogelijkheden wordt versterkt door raamwerken zoals LamaIndex, CrewAI, en OpenDevin. Deze raamwerken maken de creatie van gespecialiseerde AI-agenten en de integratie van Qwen2 in ophaal-vergrote generatie (RAG) pijpleidingen, waardoor het scala aan toepassingen en gebruiksscenario's wordt uitgebreid.

Vooruitkijken: toekomstige ontwikkelingen en kansen

Alibaba's visie voor Qwen2 reikt veel verder dan de huidige release. Het team traint actief grotere modellen om de grenzen van modelschaling te verkennen, aangevuld met voortdurende inspanningen op het gebied van dataschaling. Bovendien zijn er plannen om Qwen2 uit te breiden naar het domein van multimodale AI, waardoor de integratie van mogelijkheden voor visie- en audiobegrip mogelijk wordt.

Terwijl het open-source AI-ecosysteem blijft bloeien, zal Qwen2 een cruciale rol spelen en dienen als een krachtig hulpmiddel voor onderzoekers, ontwikkelaars en organisaties die de stand van zaken op het gebied van natuurlijke taalverwerking en kunstmatige intelligentie willen bevorderen.

De afgelopen vijf jaar heb ik me verdiept in de fascinerende wereld van Machine Learning en Deep Learning. Door mijn passie en expertise heb ik bijgedragen aan meer dan 50 verschillende software engineering projecten, met een bijzondere focus op AI/ML. Mijn voortdurende nieuwsgierigheid heeft me ook aangetrokken tot Natural Language Processing, een gebied dat ik graag verder wil verkennen.