Rescale 미팅 예약

인공 지능

Qwen2 - Alibaba의 최신 다국어 언어 모델이 Llama 3과 같은 SOTA에 도전

mm
업데이트 on
Qwen1.5에서 Qwen2로의 진화

몇 달간의 기다림 끝에, 알리바바의 Qwen 팀이 마침내 Qwen2를 공개했습니다. – 강력한 언어 모델 시리즈의 다음 진화. Qwen2는 잠재적으로 Meta의 유명한 제품에 대한 최고의 대안으로 자리매김할 수 있는 최첨단 발전을 자랑하는 중요한 도약을 나타냅니다. 라마 3 모델. 이 기술 심층 분석에서는 Qwen2를 LLM(대형 언어 모델) 영역에서 강력한 경쟁자로 만드는 주요 기능, 성능 벤치마크 및 혁신적인 기술을 살펴보겠습니다.

확장: Qwen2 모델 라인업 소개

핵심 Qwen2 다양한 계산 요구 사항을 충족하도록 맞춤화된 다양한 모델 라인업이 있습니다. 이 시리즈는 Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B 및 주력 제품인 Qwen2-72B의 XNUMX가지 모델 크기를 포함합니다. 이러한 옵션 범위는 적당한 하드웨어 리소스를 보유한 사용자부터 최첨단 컴퓨팅 인프라에 액세스할 수 있는 사용자까지 광범위한 사용자에게 적합합니다.

Qwen2의 뛰어난 기능 중 하나는 다국어 기능입니다. 이전에는 Qwen1.5 모델은 영어와 중국어에 탁월하며, Qwen2는 인상적인 27개 추가 언어에 걸친 데이터에 대해 훈련되었습니다. 이 다중 언어 훈련 계획에는 서유럽, 동유럽 및 중부 유럽, 중동, 동아시아 및 남아시아와 같은 다양한 지역의 언어가 포함됩니다.

Qwen2 모델에서 지원되는 언어가 지역별로 분류되어 나열된 표

지역별로 분류된 Qwen2 모델에서 지원되는 언어

언어 레퍼토리를 확장함으로써 Qwen2는 광범위한 언어에 걸쳐 콘텐츠를 이해하고 생성하는 뛰어난 능력을 보여줌으로써 글로벌 응용 프로그램과 문화 간 커뮤니케이션을 위한 귀중한 도구가 되었습니다.

 

매개변수, 비임베딩 매개변수, GQA, 타이 임베딩 및 컨텍스트 길이별로 Qwen2 모델을 비교하는 표

매개변수, GQA 및 컨텍스트 길이를 포함한 Qwen2 모델의 사양입니다.

코드 전환 해결: 다국어 문제

다국어 환경에서는 단일 대화나 발화 내에서 서로 다른 언어를 번갈아 사용하는 코드 전환 현상이 흔히 발생합니다. Qwen2는 코드 전환 시나리오를 처리하여 관련 문제를 크게 줄이고 언어 간 원활한 전환을 보장하도록 꼼꼼하게 교육받았습니다.

일반적으로 코드 전환을 유도하는 프롬프트를 사용한 평가를 통해 이 영역에서 Qwen2의 실질적인 개선이 확인되었으며, 이는 진정한 다국어 언어 모델을 제공하려는 Alibaba의 노력에 대한 증거입니다.

코딩과 수학에서 우수함

Qwen2는 전통적으로 언어 모델에 도전 과제를 제기해 온 코딩 및 수학 영역에서 놀라운 기능을 보유하고 있습니다. 광범위한 고품질 데이터 세트와 최적화된 훈련 방법론을 활용함으로써 플래그십 모델의 명령 조정 변형인 Qwen2-72B-Instruct는 다양한 프로그래밍 언어에서 수학적 문제를 해결하고 코딩 작업에 탁월한 성능을 보여줍니다.

맥락 이해 확장

Qwen2의 가장 인상적인 기능 중 하나는 확장된 컨텍스트 시퀀스를 이해하고 처리하는 능력입니다. 대부분의 언어 모델은 긴 형식의 텍스트로 인해 어려움을 겪는 반면, Qwen2-7B-Instruct 및 Qwen2-72B-Instruct 모델은 최대 128K 토큰의 컨텍스트 길이를 처리하도록 설계되었습니다.

이 놀라운 기능은 법적 계약서, 연구 논문 또는 밀도가 높은 기술 매뉴얼과 같은 긴 문서에 대한 심층적인 이해가 필요한 애플리케이션에 획기적인 변화를 가져옵니다. 확장된 컨텍스트를 효과적으로 처리함으로써 Qwen2는 보다 정확하고 포괄적인 응답을 제공하여 자연어 처리의 새로운 지평을 열 수 있습니다.

다양한 컨텍스트 길이와 문서 깊이에 걸쳐 Qwen2 모델의 사실 검색 정확도를 보여주는 차트

다양한 컨텍스트 길이와 문서 깊이에 걸쳐 문서에서 사실을 검색하는 Qwen2 모델의 정확성.

이 차트는 다양한 컨텍스트 길이와 깊이의 문서에서 사실을 검색하는 Qwen2 모델의 기능을 보여줍니다.

아키텍처 혁신: 그룹 쿼리 주의 및 최적화된 임베딩

내부적으로 Qwen2는 탁월한 성능에 기여하는 여러 가지 아키텍처 혁신을 통합합니다. 그러한 혁신 중 하나는 모든 모델 크기에 걸쳐 GQA(Group Query Attention)를 채택한 것입니다. GQA는 더 빠른 추론 속도와 감소된 메모리 사용량을 제공하여 Qwen2를 더 효율적으로 만들고 더 광범위한 하드웨어 구성에 액세스할 수 있게 해줍니다.

또한 Alibaba는 Qwen2 시리즈의 소형 모델에 대한 임베딩을 최적화했습니다. 임베딩을 결합함으로써 팀은 이러한 모델의 메모리 공간을 줄여 고품질 성능을 유지하면서 덜 강력한 하드웨어에 배포할 수 있었습니다.

벤치마킹 Qwen2: 뛰어난 성능을 자랑하는 최첨단 모델

Qwen2는 다양한 벤치마크에서 놀라운 성능을 보여줍니다. 비교 평가 결과, 시리즈 중 가장 큰 모델인 Qwen2-72B는 자연어 이해, 지식 습득, 코딩 숙련도, 수학 능력, 다국어 능력 등 중요한 영역에서 Llama-3-70B와 같은 주요 경쟁사보다 우수한 것으로 나타났습니다.

여러 프로그래밍 언어의 코딩과 다양한 시험의 수학에서 Qwen2-72B-Instruct와 Llama3-70B-Instruct를 비교하는 차트

Qwen2-72B-Instruct와 Llama3-70B-Instruct의 코딩 및 수학 성능 비교

Qwen1.5-110B는 이전 제품인 Qwen2-72B보다 매개변수가 적음에도 불구하고 탁월한 성능을 보여주며, 이는 Alibaba가 세심하게 선별한 데이터세트와 최적화된 교육 방법론의 효율성을 입증합니다.

안전과 책임: 인간의 가치에 부합

Qwen2-72B-Instruct는 불법 활동, 사기, 음란물 및 개인정보 침해와 관련된 잠재적으로 유해한 쿼리를 처리하는 능력에 대해 엄격하게 평가되었습니다. 결과는 고무적입니다. Qwen2-72B-Instruct는 안전성 측면에서 높이 평가되는 GPT-4 모델과 비슷한 성능을 발휘하며 Mistral-8x22B와 같은 다른 대형 모델에 비해 유해한 반응 비율이 현저히 낮습니다.

이번 성과는 인간의 가치에 부합하는 AI 시스템을 개발하려는 Alibaba의 노력을 강조하여 Qwen2가 강력할 뿐만 아니라 신뢰할 수 있고 책임감도 있음을 보장합니다.

라이선스 및 오픈 소스 약속

Qwen2의 영향력을 더욱 증폭시키는 움직임으로 Alibaba는 라이센스에 대한 오픈 소스 접근 방식을 채택했습니다. Qwen2-72B 및 해당 명령 조정 모델은 원래 Qianwen 라이센스를 유지하지만 나머지 모델(Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B 및 Qwen2-57B-A14B)은 허용되는 Apache 2.0 라이센스에 따라 라이센스가 부여되었습니다. .

이러한 향상된 개방성은 전 세계적으로 Qwen2 모델의 적용 및 상업적 사용을 가속화하여 글로벌 AI 커뮤니티 내에서 협업과 혁신을 촉진할 것으로 예상됩니다.

사용 및 구현

다음과 같은 널리 사용되는 프레임워크와의 통합 덕분에 Qwen2 모델을 사용하는 것이 간단합니다. 포옹하는 얼굴. 다음은 추론을 위해 Qwen2-7B-Chat-beta를 사용하는 예입니다.

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

이 코드 조각은 Qwen2-7B-Chat 모델을 사용하여 텍스트를 설정하고 생성하는 방법을 보여줍니다. 와의 통합 포옹하는 얼굴 접근하기 쉽고 실험하기 쉽습니다.

Qwen2 대 Llama 3: 비교 분석

Qwen2와 메타의 라마 3 둘 다 강력한 언어 모델이며 뚜렷한 강점과 절충점을 나타냅니다.

여러 벤치마크에 걸쳐 Qwen2-72B, Llama3-70B, Mixtral-8x22B 및 Qwen1.5-110B의 성능 비교 차트

MMLU, MMLU-Pro, GPQA 등을 포함한 다양한 벤치마크에서 Qwen2-72B, Llama3-70B, Mixtral-8x22B 및 Qwen1.5-110B의 비교 성능 차트입니다.

주요 차이점을 이해하는 데 도움이 되는 비교 분석은 다음과 같습니다.

다국어 기능: Qwen2는 다국어 지원 측면에서 확실한 장점을 갖고 있습니다. 영어와 중국어 외에 27개 추가 언어에 걸친 데이터에 대한 교육을 통해 Qwen2는 문화 간 의사소통 및 다국어 시나리오에서 탁월한 성능을 발휘할 수 있습니다. 이와 대조적으로 Llama 3의 다국어 기능은 덜 뚜렷하여 다양한 언어적 맥락에서 그 효과가 제한될 수 있습니다.

코딩 및 수학 능력: Qwen2와 라마 3 인상적인 코딩 및 수학적 능력을 보여줍니다. 그러나 Qwen2-72B-Instruct는 이러한 도메인의 광범위한 고품질 데이터 세트에 대한 엄격한 교육으로 인해 약간의 우위를 차지하는 것으로 보입니다. 이러한 영역에서 Qwen2의 기능을 향상시키는 데 Alibaba가 중점을 두는 것은 코딩이나 수학적 문제 해결과 관련된 특수 응용 프로그램에 이점을 제공할 수 있습니다.

긴 맥락 이해: Qwen2-7B-Instruct 및 Qwen2-72B-Instruct 모델은 최대 128K 토큰의 컨텍스트 길이를 처리하는 인상적인 능력을 자랑합니다. 이 기능은 긴 문서나 밀도 높은 기술 자료에 대한 심층적인 이해가 필요한 애플리케이션에 특히 유용합니다. Llama 3은 긴 시퀀스를 처리할 수 있지만 이 특정 영역에서는 Qwen2의 성능과 일치하지 않을 수 있습니다.

Qwen2와 Llama 3 모두 최첨단 성능을 보여주지만, 2B에서 0.5B 매개변수 범위의 Qwen72의 다양한 모델 라인업은 더 뛰어난 유연성과 확장성을 제공합니다. 이러한 다양성을 통해 사용자는 계산 리소스 및 성능 요구 사항에 가장 적합한 모델 크기를 선택할 수 있습니다. 또한 Qwen2를 더 큰 모델로 확장하려는 Alibaba의 지속적인 노력은 기능을 더욱 향상시켜 잠재적으로 향후 Llama 3를 능가할 수 있습니다.

배포 및 통합: Qwen2 채택 간소화

Qwen2의 광범위한 채택과 통합을 촉진하기 위해 Alibaba는 다양한 플랫폼과 프레임워크 전반에 걸쳐 원활한 배포를 보장하는 사전 조치를 취했습니다. Qwen 팀은 수많은 타사 프로젝트 및 조직과 긴밀하게 협력하여 Qwen2를 다양한 도구 및 프레임워크와 함께 활용할 수 있도록 했습니다.

미세 조정 및 양자화: Axolotl, Llama-Factory, Firefly, Swift 및 XTuner와 같은 타사 프로젝트는 Qwen2 모델 미세 조정을 지원하도록 최적화되어 사용자가 특정 작업 및 데이터 세트에 맞게 모델을 조정할 수 있습니다. 또한 다음과 같은 양자화 도구는 자동GPTQ, 자동AWQ, Neural Compressor는 Qwen2와 함께 작동하도록 조정되어 리소스가 제한된 장치에서 효율적인 배포를 촉진합니다.

배포 및 추론: Qwen2 모델은 다음을 포함한 다양한 프레임워크를 사용하여 배포 및 제공될 수 있습니다. vLLM, SGL, 스카이파일럿, 텐서RT-LLM, 오픈비노, TGI. 이러한 프레임워크는 최적화된 추론 파이프라인을 제공하여 프로덕션 환경에서 Qwen2의 효율적이고 확장 가능한 배포를 가능하게 합니다.

API 플랫폼 및 로컬 실행: Qwen2를 애플리케이션에 통합하려는 개발자의 경우 Together, Fireworks 및 OpenRouter와 같은 API 플랫폼을 통해 모델 기능에 편리하게 액세스할 수 있습니다. 또는 MLX, Llama.cpp와 같은 프레임워크를 통해 로컬 실행이 지원됩니다. 올라마및 LM Studio를 통해 사용자는 데이터 개인 정보 보호 및 보안에 대한 제어를 유지하면서 로컬 컴퓨터에서 Qwen2를 실행할 수 있습니다.

에이전트 및 RAG 프레임워크: 도구 사용 및 에이전트 기능에 대한 Qwen2의 지원은 다음과 같은 프레임워크에 의해 강화됩니다. 라마 인덱스, CrewAI 및 오픈데빈. 이러한 프레임워크를 통해 전문 AI 에이전트를 생성하고 Qwen2를 통합할 수 있습니다. 검색 증강 생성(RAG) 파이프라인을 통해 애플리케이션과 사용 사례의 범위를 확장합니다.

미래 전망: 미래 발전과 기회

Qwen2에 대한 Alibaba의 비전은 현재 릴리스를 훨씬 뛰어넘는 것입니다. 팀은 지속적인 데이터 확장 노력을 통해 보완되는 모델 확장의 최전선을 탐색하기 위해 더 큰 모델을 적극적으로 교육하고 있습니다. 또한 Qwen2를 멀티모달 AI 영역으로 확장하여 비전 및 오디오 이해 기능을 통합할 계획이 진행 중입니다.

오픈 소스 AI 생태계가 지속적으로 성장함에 따라 Qwen2는 자연어 처리 및 인공 지능 분야의 최첨단 기술을 발전시키려는 연구자, 개발자 및 조직을 위한 강력한 리소스 역할을 하는 중추적인 역할을 할 것입니다.

저는 지난 50년 동안 기계 학습과 딥 러닝의 매혹적인 세계에 몰두했습니다. 저의 열정과 전문 ​​지식은 특히 AI/ML에 중점을 둔 XNUMX개 이상의 다양한 소프트웨어 엔지니어링 프로젝트에 기여하도록 이끌었습니다. 나의 계속되는 호기심은 또한 내가 더 탐구하고 싶은 분야인 자연어 처리로 나를 이끌었습니다.