Connecteu-vos amb nosaltres

Intel·ligència Artificial

Qwen2: l'últim model lingüístic multilingüe d'Alibaba desafia SOTA com Llama 3

mm
actualitzat on
evolució de Qwen1.5 a Qwen2

Després de mesos d'espera, L'equip Qwen d'Alibaba finalment ha presentat Qwen2 – la propera evolució de la seva potent sèrie de models lingüístics. Qwen2 representa un important salt endavant, amb avenços d'avantguarda que podrien posicionar-lo com la millor alternativa al celebrat de Meta. Truca 3 model. En aquesta immersió tècnica profunda, explorarem les característiques clau, els punts de referència de rendiment i les tècniques innovadores que fan de Qwen2 un competidor formidable en l'àmbit dels grans models de llenguatge (LLM).

Ampliació: Presentació de la línia de models Qwen2

Al centre de Qwen2 es troba una línia diversa de models adaptats per satisfer les diferents demandes computacionals. La sèrie inclou cinc mides de models diferents: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B i el vaixell insígnia Qwen2-72B. Aquesta gamma d'opcions atén un ampli espectre d'usuaris, des d'aquells amb recursos de maquinari modestos fins a aquells amb accés a una infraestructura computacional d'avantguarda.

Una de les característiques més destacades de Qwen2 són les seves capacitats multilingües. Mentre que l'anterior Qwen1.5 model excel·lent en anglès i xinès, Qwen2 ha estat entrenat en dades que abasten 27 idiomes addicionals impressionants. Aquest règim d'entrenament multilingüe inclou idiomes de diverses regions com ara Europa occidental, Europa oriental i central, Orient Mitjà, Àsia oriental i Àsia meridional.

Taula que enumera els idiomes compatibles amb els models Qwen2, classificats per regions

Idiomes compatibles amb els models Qwen2, categoritzats per regions geogràfiques

Amb l'ampliació del seu repertori lingüístic, Qwen2 demostra una capacitat excepcional per comprendre i generar contingut en una àmplia gamma d'idiomes, cosa que el converteix en una eina inestimable per a aplicacions globals i comunicació intercultural.

 

Taula que compara els models Qwen2 per paràmetres, paràmetres no incrustats, GQA, incrustació de lligams i longitud del context

Especificacions dels models Qwen2, inclosos paràmetres, GQA i longitud del context.

Abordar el canvi de codi: un repte multilingüe

En contextos multilingües, el fenomen del canvi de codi -la pràctica d'alternar entre diferents idiomes dins d'una sola conversa o enunciat- és un fet habitual. Qwen2 ha estat entrenat meticulosament per gestionar escenaris de canvi de codi, reduint significativament els problemes associats i garantint transicions fluides entre idiomes.

Les avaluacions que utilitzen indicacions que normalment indueixen el canvi de codi han confirmat la millora substancial de Qwen2 en aquest domini, una prova del compromís d'Alibaba per oferir un model d'idioma realment multilingüe.

Excel·lent en codificació i matemàtiques

Qwen2 té capacitats notables en els dominis de la codificació i les matemàtiques, àrees que tradicionalment han suposat reptes per als models lingüístics. Aprofitant amplis conjunts de dades d'alta qualitat i metodologies d'entrenament optimitzades, Qwen2-72B-Instruct, la variant ajustada a les instruccions del model insígnia, presenta un rendiment excel·lent en la resolució de problemes matemàtics i tasques de codificació en diversos llenguatges de programació.

Ampliació de la comprensió del context

Una de les característiques més impressionants de Qwen2 és la seva capacitat per comprendre i processar seqüències de context estès. Tot i que la majoria dels models d'idioma lluiten amb el text llarg, els models Qwen2-7B-Instruct i Qwen2-72B-Instruct s'han dissenyat per gestionar longituds de context de fins a 128K fitxes.

Aquesta capacitat notable és un canvi de joc per a aplicacions que exigeixen una comprensió profunda de documents extensos, com ara contractes legals, documents de recerca o manuals tècnics densos. Mitjançant el processament eficaç de contextos amplis, Qwen2 pot proporcionar respostes més precises i completes, desbloquejant noves fronteres en el processament del llenguatge natural.

Gràfic que mostra la precisió de recuperació de fets dels models Qwen2 en diferents longituds de context i profunditats de documents

Precisió dels models Qwen2 a l'hora de recuperar fets dels documents amb diferents longituds de context i profunditats de documents.

Aquest gràfic mostra la capacitat dels models Qwen2 per recuperar fets de documents de diferents longituds i profunditats de context.

Innovacions arquitectòniques: Atenció de consultes de grup i incrustacions optimitzades

Sota el capó, Qwen2 incorpora diverses innovacions arquitectòniques que contribueixen al seu rendiment excepcional. Una d'aquestes innovacions és l'adopció de Group Query Attention (GQA) en totes les mides de model. GQA ofereix velocitats d'inferència més ràpides i un ús de memòria reduït, fent que Qwen2 sigui més eficient i accessible a una gamma més àmplia de configuracions de maquinari.

A més, Alibaba ha optimitzat les incrustacions per a models més petits de la sèrie Qwen2. En lligar les incrustacions, l'equip ha aconseguit reduir la petjada de memòria d'aquests models, permetent el seu desplegament en maquinari menys potent tot mantenint un rendiment d'alta qualitat.

Benchmarking Qwen2: superant els models d'última generació

Qwen2 té un rendiment notable en una àmplia gamma de benchmarks. Les avaluacions comparatives revelen que Qwen2-72B, el model més gran de la sèrie, supera els principals competidors com Llama-3-70B en àrees crítiques, com ara la comprensió del llenguatge natural, l'adquisició de coneixements, la competència de codificació, les habilitats matemàtiques i les habilitats multilingües.

Gràfics que comparen Qwen2-72B-Instruct i Llama3-70B-Instruct en la codificació en diversos llenguatges de programació i en matemàtiques en diferents exàmens

Qwen2-72B-Instruir versus Llama3-70B-Instruir en codificació i rendiment matemàtic

Tot i tenir menys paràmetres que el seu predecessor, Qwen1.5-110B, Qwen2-72B presenta un rendiment superior, un testimoni de l'eficàcia dels conjunts de dades meticulosament curats d'Alibaba i les metodologies d'entrenament optimitzades.

Seguretat i responsabilitat: alineant-se amb els valors humans

Qwen2-72B-Instruct s'ha avaluat rigorosament per la seva capacitat per gestionar consultes potencialment perjudicials relacionades amb activitats il·legals, frau, pornografia i violacions de la privadesa. Els resultats són encoratjadors: el Qwen2-72B-Instruct funciona de manera comparable al model GPT-4 molt apreciat en termes de seguretat, mostrant proporcions significativament més baixes de respostes nocives en comparació amb altres models grans com Mistral-8x22B.

Aquest assoliment subratlla el compromís d'Alibaba de desenvolupar sistemes d'IA que s'alinein amb els valors humans, assegurant que Qwen2 no només sigui potent, sinó també fiable i responsable.

Compromís de llicències i codi obert

En un moviment que amplifica encara més l'impacte de Qwen2, Alibaba ha adoptat un enfocament de codi obert per a les llicències. Tot i que el Qwen2-72B i els seus models ajustats per instruccions conserven la llicència Qianwen original, els models restants (Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B i Qwen2-57B-A14B) tenen una llicència permissiva d'Apache 2.0. .

S'espera que aquesta obertura millorada acceleri l'aplicació i l'ús comercial dels models Qwen2 a tot el món, fomentant la col·laboració i la innovació dins de la comunitat global d'IA.

Ús i implementació

L'ús de models Qwen2 és senzill, gràcies a la seva integració amb marcs populars com Cara abraçada. Aquí teniu un exemple d'ús de Qwen2-7B-Chat-beta per a inferència:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

Aquest fragment de codi mostra com configurar i generar text mitjançant el model Qwen2-7B-Chat. La integració amb Cara abraçada fa que sigui accessible i fàcil d'experimentar.

Qwen2 vs. Llama 3: una anàlisi comparativa

Mentre que Qwen2 i Meta's Llama 3 Tots dos són models de llenguatge formidables, presenten fortaleses i avantatges diferents.

Gràfic de comparació de rendiment de Qwen2-72B, Llama3-70B, Mixtral-8x22B i Qwen1.5-110B en diversos punts de referència

Un gràfic de rendiment comparatiu de Qwen2-72B, Llama3-70B, Mixtral-8x22B i Qwen1.5-110B en diversos punts de referència, com ara MMLU, MMLU-Pro, GPQA i altres.

Aquí teniu una anàlisi comparativa per ajudar-vos a entendre les seves diferències clau:

Capacitats multilingües: Qwen2 té un clar avantatge en termes de suport multilingüe. La seva formació sobre dades que abasten 27 idiomes addicionals, més enllà de l'anglès i el xinès, permet a Qwen2 excel·lir en la comunicació intercultural i en escenaris multilingües. En canvi, les capacitats multilingües de Llama 3 són menys pronunciades, la qual cosa pot limitar la seva eficàcia en contextos lingüístics diversos.

Competència en codificació i matemàtiques: Tant Qwen2 com Truca 3 Demostrar habilitats matemàtiques i de codificació impressionants. Tanmateix, Qwen2-72B-Instruct sembla tenir un lleuger avantatge, a causa de la seva formació rigorosa en conjunts de dades extensos i d'alta qualitat en aquests dominis. L'enfocament d'Alibaba a millorar les capacitats de Qwen2 en aquestes àrees podria donar-li un avantatge per a aplicacions especialitzades que impliquen codificació o resolució de problemes matemàtics.

Comprensió de context llarg: Els models Qwen2-7B-Instruct i Qwen2-72B-Instruct tenen una capacitat impressionant per gestionar longituds de context de fins a 128K fitxes. Aquesta característica és especialment valuosa per a aplicacions que requereixen una comprensió profunda de documents extensos o materials tècnics densos. Llama 3, tot i que és capaç de processar seqüències llargues, pot no coincidir amb el rendiment de Qwen2 en aquesta àrea específica.

Tot i que tant Qwen2 com Llama 3 presenten un rendiment d'última generació, la variada línia de models de Qwen2, que oscil·la entre els paràmetres de 0.5B a 72B, ofereix una major flexibilitat i escalabilitat. Aquesta versatilitat permet als usuaris triar la mida del model que millor s'adapti als seus recursos computacionals i requisits de rendiment. A més, els esforços en curs d'Alibaba per escalar Qwen2 a models més grans podrien millorar encara més les seves capacitats, superant potencialment a Llama 3 en el futur.

Desplegament i integració: racionalització de l'adopció de Qwen2

Per facilitar l'adopció i la integració generalitzades de Qwen2, Alibaba ha pres mesures proactives per garantir un desplegament perfecte en diverses plataformes i marcs. L'equip de Qwen ha col·laborat estretament amb nombrosos projectes i organitzacions de tercers, cosa que ha permès aprofitar Qwen2 juntament amb una àmplia gamma d'eines i marcs.

Afinació i quantificació: Projectes de tercers com ara Axolotl, Llama-Factory, Firefly, Swift i XTuner s'han optimitzat per donar suport als models Qwen2 d'ajustament final, la qual cosa permet als usuaris adaptar els models a les seves tasques i conjunts de dades específics. A més, eines de quantificació com AutoGPTQ, AutoAWQ, i Neural Compressor s'han adaptat per treballar amb Qwen2, facilitant el desplegament eficient en dispositius amb recursos limitats.

Desplegament i inferència: Els models Qwen2 es poden desplegar i servir mitjançant una varietat de marcs, inclosos vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, i TGI. Aquests marcs ofereixen canalitzacions d'inferència optimitzades, que permeten un desplegament eficient i escalable de Qwen2 en entorns de producció.

Plataformes API i execució local: Per als desenvolupadors que busquen integrar Qwen2 a les seves aplicacions, plataformes API com Together, Fireworks i OpenRouter ofereixen un accés còmode a les capacitats dels models. Alternativament, l'execució local és compatible amb marcs com MLX, Llama.cpp, Ollama, i LM Studio, que permet als usuaris executar Qwen2 a les seves màquines locals mantenint el control sobre la privadesa i la seguretat de les dades.

Agents i marcs RAG: El suport de Qwen2 per a l'ús d'eines i les capacitats d'agent es reforça amb marcs com TrucaIndex, CrewAI i OpenDevin. Aquests marcs permeten la creació d'agents d'IA especialitzats i la integració de Qwen2 generació augmentada amb recuperació (RAG) pipelines, ampliant el ventall d'aplicacions i casos d'ús.

Mirant cap al futur: desenvolupaments futurs i oportunitats

La visió d'Alibaba per a Qwen2 s'estén molt més enllà del llançament actual. L'equip està entrenant activament models més grans per explorar les fronteres de l'escala de models, complementat amb els esforços en curs d'escalat de dades. A més, hi ha plans per estendre Qwen2 a l'àmbit de la IA multimodal, permetent la integració de les capacitats de comprensió de la visió i l'àudio.

A mesura que l'ecosistema d'IA de codi obert continua prosperant, Qwen2 jugarà un paper fonamental, servint de poderós recurs per als investigadors, desenvolupadors i organitzacions que busquen avançar en l'estat de l'art en el processament del llenguatge natural i la intel·ligència artificial.

He passat els últims cinc anys submergint-me en el fascinant món de l'aprenentatge automàtic i l'aprenentatge profund. La meva passió i experiència m'han portat a contribuir a més de 50 projectes diversos d'enginyeria de programari, amb un enfocament particular en IA/ML. La meva curiositat contínua també m'ha atret cap al processament del llenguatge natural, un camp que tinc ganes d'explorar més.