ເຊື່ອມຕໍ່ກັບພວກເຮົາ

ປັນຍາປະດິດ

Qwen2 – ຕົວແບບພາສາຫຼາຍພາສາຫຼ້າສຸດຂອງ Alibaba ທ້າທາຍ SOTA ຄືກັບ Llama 3

mm
ການປັບປຸງ on
evolution ຈາກ Qwen1.5 ກັບ Qwen2

ຫຼັງ​ຈາກ​ການ​ຄາດ​ຄະ​ເນ​ຫຼາຍ​ເດືອນ​, ສຸດທ້າຍທີມງານ Qwen ຂອງ Alibaba ໄດ້ເປີດເຜີຍ Qwen2 - ການວິວັດທະນາການຕໍ່ໄປຂອງຊຸດແບບຈໍາລອງພາສາທີ່ມີປະສິດທິພາບຂອງພວກເຂົາ. Qwen2 ສະແດງໃຫ້ເຫັນເຖິງການກ້າວໄປຂ້າງຫນ້າທີ່ສໍາຄັນ, ໂອ້ອວດຄວາມກ້າວຫນ້າທີ່ທັນສະ ໄໝ ທີ່ອາດຈະເປັນທາງເລືອກທີ່ດີທີ່ສຸດຂອງ Meta's ສະເຫຼີມສະຫຼອງ. ລາມາ 3 ຕົວແບບ. ໃນການລົງເລິກດ້ານວິຊາການນີ້, ພວກເຮົາຈະຄົ້ນຫາລັກສະນະທີ່ສໍາຄັນ, ມາດຕະຖານການປະຕິບັດ, ແລະເຕັກນິກການປະດິດສ້າງທີ່ເຮັດໃຫ້ Qwen2 ເປັນຄູ່ແຂ່ງທີ່ໂດດເດັ່ນໃນຂອບເຂດຂອງຮູບແບບພາສາຂະຫນາດໃຫຍ່ (LLMs).

Scaling Up: ແນະນໍາ Qwen2 Model Lineup

ທີ່ຫຼັກຂອງ ຄິວເວິນ2 ມີຄວາມຫຼາກຫຼາຍຂອງຕົວແບບທີ່ປັບແຕ່ງມາເພື່ອຕອບສະໜອງຄວາມຕ້ອງການດ້ານການຄິດໄລ່ທີ່ແຕກຕ່າງກັນ. ຊຸດປະກອບມີຫ້າຂະຫນາດຕົວແບບທີ່ແຕກຕ່າງກັນ: Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B, ແລະເຮືອທຸງ Qwen2-72B. ຕົວເລືອກນີ້ເໝາະກັບກຸ່ມຜູ້ໃຊ້ທີ່ກວ້າງຂວາງ, ຈາກຜູ້ທີ່ມີຊັບພະຍາກອນຮາດແວປານກາງເຖິງຜູ້ທີ່ເຂົ້າເຖິງໂຄງສ້າງພື້ນຖານການຄິດໄລ່ທີ່ທັນສະໄໝ.

ຫນຶ່ງໃນລັກສະນະທີ່ໂດດເດັ່ນຂອງ Qwen2 ແມ່ນຄວາມສາມາດຫຼາຍພາສາຂອງມັນ. ໃນຂະນະທີ່ທີ່ຜ່ານມາ ຄິວເວິນ1.5 ຮູບແບບທີ່ດີເລີດໃນພາສາອັງກິດແລະພາສາຈີນ, Qwen2 ໄດ້ຮັບການຝຶກອົບຮົມກ່ຽວກັບຂໍ້ມູນທີ່ກວມເອົາ 27 ພາສາເພີ່ມເຕີມທີ່ຫນ້າປະທັບໃຈ. ລະບຽບ​ການ​ຝຶກ​ອົບ​ຮົມ​ຫຼາຍ​ພາ​ສາ​ນີ້​ລວມ​ມີ​ພາ​ສາ​ຈາກ​ພາກ​ພື້ນ​ທີ່​ຫຼາກ​ຫຼາຍ​ເຊັ່ນ​: ເອີ​ຣົບ​ຕາ​ເວັນ​ຕົກ​, ເອີ​ຣົບ​ຕາ​ເວັນ​ອອກ​ແລະ​ກາງ​, ຕາ​ເວັນ​ອອກ​ກາງ​, ອາ​ຊີ​ຕາ​ເວັນ​ອອກ​ແລະ​ອາ​ຊີ​ໃຕ້​.

ຕາ​ຕະ​ລາງ​ລາຍ​ຊື່​ພາ​ສາ​ສະ​ຫນັບ​ສະ​ຫນູນ​ໂດຍ Qwen2 ແບບ​ຈໍາ​ລອງ​, ຈັດ​ປະ​ເພດ​ຕາມ​ພາກ​ພື້ນ​

ພາ​ສາ​ທີ່​ສະ​ຫນັບ​ສະ​ຫນູນ​ໂດຍ​ຕົວ​ແບບ Qwen2​, ຈັດ​ປະ​ເພດ​ໂດຍ​ພາກ​ພື້ນ​ທີ່​ພູມ​ສາດ​

ໂດຍການຂະຫຍາຍການບັນຍາຍພາສາຂອງຕົນ, Qwen2 ສະແດງໃຫ້ເຫັນຄວາມສາມາດພິເສດໃນຄວາມເຂົ້າໃຈ ແລະສ້າງເນື້ອຫາໃນທົ່ວພາສາທີ່ຫຼາກຫຼາຍ, ເຮັດໃຫ້ມັນເປັນເຄື່ອງມືອັນລ້ຳຄ່າສຳລັບແອັບພລິເຄຊັນທົ່ວໂລກ ແລະການສື່ສານຂ້າມວັດທະນະທໍາ.

 

ຕາຕະລາງປຽບທຽບແບບຈໍາລອງ Qwen2 ໂດຍພາລາມິເຕີ, ຕົວກໍານົດການບໍ່ຝັງ, GQA, ການຝັງຕົວ, ແລະຄວາມຍາວຂອງບໍລິບົດ

ຂໍ້ມູນຈໍາເພາະຂອງ Qwen2 Models ລວມທັງພາລາມິເຕີ, GQA, ແລະຄວາມຍາວຂອງບໍລິບົດ.

ການແກ້ໄຂລະຫັດປ່ຽນ: ສິ່ງທ້າທາຍຫຼາຍພາສາ

ໃນ​ສະ​ພາບ​ການ​ຫຼາຍ​ພາ​ສາ​, ປະ​ກົດ​ການ​ຂອງ​ການ​ສະ​ຫຼັບ​ລະ​ຫັດ - ການ​ປະ​ຕິ​ບັດ​ຂອງ​ການ​ສະ​ຫຼັບ​ລະ​ຫວ່າງ​ພາ​ສາ​ທີ່​ແຕກ​ຕ່າງ​ກັນ​ພາຍ​ໃນ​ການ​ສົນ​ທະ​ນາ​ດຽວ​ຫຼື​ຄໍາ​ເວົ້າ - ເປັນ​ເລື່ອງ​ທີ່​ເກີດ​ຂຶ້ນ​ທົ່ວ​ໄປ​. Qwen2 ໄດ້​ຮັບ​ການ​ຝຶກ​ອົບ​ຮົມ​ຢ່າງ​ພິ​ນິດ​ເພື່ອ​ຈັດ​ການ​ສະ​ຖາ​ນະ​ການ​ການ​ສະ​ຫຼັບ​ລະ​ຫັດ​, ການ​ຫຼຸດ​ຜ່ອນ​ບັນ​ຫາ​ທີ່​ກ່ຽວ​ຂ້ອງ​ຢ່າງ​ຫຼວງ​ຫຼາຍ​ແລະ​ການ​ຮັບ​ປະ​ກັນ​ການ​ປ່ຽນ​ແປງ​ລະ​ຫວ່າງ​ພາ​ສາ​ສະ​ດວກ​ສະ​ບາຍ​.

ການປະເມີນໂດຍໃຊ້ການກະຕຸ້ນເຕືອນທີ່ປົກກະຕິເຮັດໃຫ້ການປ່ຽນລະຫັດໄດ້ຢືນຢັນການປັບປຸງຢ່າງຫຼວງຫຼາຍຂອງ Qwen2 ໃນໂດເມນນີ້, ເປັນຫຼັກຖານສະແດງເຖິງຄວາມມຸ່ງຫມັ້ນຂອງ Alibaba ໃນການສະຫນອງຮູບແບບພາສາຫຼາຍພາສາຢ່າງແທ້ຈິງ.

ດີເລີດໃນ Coding ແລະຄະນິດສາດ

Qwen2 ມີ​ຄວາມ​ສາ​ມາດ​ທີ່​ຫນ້າ​ສັງ​ເກດ​ໃນ​ໂດ​ເມນ​ຂອງ​ການ​ລະ​ຫັດ​ແລະ​ຄະ​ນິດ​ສາດ​, ພື້ນ​ທີ່​ທີ່​ມີ​ຄວາມ​ທ້າ​ທາຍ​ແບບ​ດັ້ງ​ເດີມ​ສໍາ​ລັບ​ຮູບ​ແບບ​ພາ​ສາ​. ໂດຍການນໍາໃຊ້ຊຸດຂໍ້ມູນທີ່ມີຄຸນນະພາບສູງຢ່າງກວ້າງຂວາງແລະວິທີການການຝຶກອົບຮົມທີ່ດີທີ່ສຸດ, Qwen2-72B-Instruct, ການປ່ຽນແປງຄໍາແນະນໍາຂອງຮູບແບບ flagship, ສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ໂດດເດັ່ນໃນການແກ້ໄຂບັນຫາຄະນິດສາດແລະວຽກງານການຂຽນລະຫັດໃນທົ່ວພາສາການຂຽນໂປຼແກຼມຕ່າງໆ.

ການຂະຫຍາຍຄວາມເຂົ້າໃຈຂອງບໍລິບົດ

ຫນຶ່ງໃນລັກສະນະທີ່ຫນ້າປະທັບໃຈທີ່ສຸດຂອງ Qwen2 ແມ່ນຄວາມສາມາດໃນການເຂົ້າໃຈແລະປຸງແຕ່ງລໍາດັບສະພາບການຂະຫຍາຍ. ໃນຂະນະທີ່ຕົວແບບພາສາສ່ວນໃຫຍ່ຕໍ່ສູ້ກັບຂໍ້ຄວາມທີ່ມີຮູບແບບຍາວ, ຮູບແບບ Qwen2-7B-Instruct ແລະ Qwen2-72B-Instruct ໄດ້ຖືກອອກແບບເພື່ອຈັດການກັບຄວາມຍາວຂອງບໍລິບົດເຖິງ 128K tokens.

ຄວາມສາມາດທີ່ໂດດເດັ່ນນີ້ແມ່ນຕົວປ່ຽນແປງເກມສໍາລັບຄໍາຮ້ອງສະຫມັກທີ່ຕ້ອງການຄວາມເຂົ້າໃຈໃນຄວາມເລິກຂອງເອກະສານທີ່ມີຄວາມຍາວ, ເຊັ່ນ: ສັນຍາທາງດ້ານກົດຫມາຍ, ເອກະສານການຄົ້ນຄວ້າ, ຫຼືຄູ່ມືດ້ານວິຊາການທີ່ຫນາແຫນ້ນ. ໂດຍ​ການ​ປະ​ມວນ​ຜົນ​ການ​ຂະ​ຫຍາຍ​ເນື້ອ​ໃນ​ທີ່​ມີ​ປະ​ສິດ​ທິ​ຜົນ​, Qwen2 ສາ​ມາດ​ໃຫ້​ຄໍາ​ຕອບ​ທີ່​ຖືກ​ຕ້ອງ​ແລະ​ສົມ​ບູນ​ແບບ​, ປົດ​ລັອກ​ເຂດ​ແດນ​ໃຫມ່​ໃນ​ການ​ປຸງ​ແຕ່ງ​ພາ​ສາ​ທໍາ​ມະ​ຊາດ​.

ຕາຕະລາງສະແດງໃຫ້ເຫັນຄວາມຖືກຕ້ອງຂອງການດຶງຂໍ້ມູນຂອງຕົວແບບ Qwen2 ໃນທົ່ວຄວາມຍາວຂອງເນື້ອໃນແລະຄວາມເລິກຂອງເອກະສານທີ່ແຕກຕ່າງກັນ.

ຄວາມຖືກຕ້ອງຂອງແບບຈໍາລອງ Qwen2 ໃນການດຶງຂໍ້ມູນຄວາມເປັນຈິງຈາກເອກະສານໃນທົ່ວຄວາມຍາວຂອງເນື້ອໃນແລະຄວາມເລິກຂອງເອກະສານ.

ຕາຕະລາງນີ້ສະແດງໃຫ້ເຫັນຄວາມສາມາດຂອງແບບຈໍາລອງ Qwen2 ທີ່ຈະດຶງຂໍ້ມູນຄວາມຈິງຈາກເອກະສານທີ່ມີຄວາມຍາວແລະຄວາມເລິກຕ່າງໆ.

ນະວັດຕະກໍາສະຖາປັດຕະຍະກໍາ: ການໃສ່ໃຈແບບສອບຖາມຂອງກຸ່ມແລະການຝັງຕົວທີ່ດີທີ່ສຸດ

ພາຍໃຕ້ຜ້າມ່ານ, Qwen2 ໄດ້ລວມເອົານະວັດຕະກໍາສະຖາປັດຕະຍະກໍາຫຼາຍຢ່າງທີ່ປະກອບສ່ວນເຂົ້າໃນການປະຕິບັດທີ່ພິເສດຂອງມັນ. ຫນຶ່ງໃນນະວັດຕະກໍາດັ່ງກ່າວແມ່ນການຮັບຮອງເອົາ Group Query Attention (GQA) ໃນທົ່ວຂະຫນາດຕົວແບບທັງຫມົດ. GQA ສະຫນອງຄວາມໄວ inference ທີ່ໄວຂຶ້ນແລະການນໍາໃຊ້ຫນ່ວຍຄວາມຈໍາທີ່ຫຼຸດລົງ, ເຮັດໃຫ້ Qwen2 ມີປະສິດທິພາບຫຼາຍຂຶ້ນແລະສາມາດເຂົ້າເຖິງການກໍານົດຮາດແວທີ່ກວ້າງຂວາງ.

ນອກຈາກນັ້ນ, Alibaba ໄດ້ເພີ່ມປະສິດທິພາບການຝັງຕົວສໍາລັບຕົວແບບຂະຫນາດນ້ອຍກວ່າໃນຊຸດ Qwen2. ໂດຍການຜູກມັດການຝັງ, ທີມງານໄດ້ຈັດການເພື່ອຫຼຸດຜ່ອນຄວາມຊົງຈໍາຂອງຕົວແບບເຫຼົ່ານີ້, ເຮັດໃຫ້ການໃຊ້ງານຂອງພວກເຂົາຢູ່ໃນຮາດແວທີ່ມີປະສິດທິພາບຫນ້ອຍໃນຂະນະທີ່ຮັກສາປະສິດທິພາບທີ່ມີຄຸນນະພາບສູງ.

Benchmarking Qwen2: ການສະແດງຕົວແບບທີ່ທັນສະໄໝກວ່າ

Qwen2 ມີການປະຕິບັດທີ່ໂດດເດັ່ນໃນທົ່ວລະດັບຄວາມຫຼາກຫຼາຍຂອງມາດຕະຖານ. ການປະເມີນການປຽບທຽບເປີດເຜີຍວ່າ Qwen2-72B, ຮູບແບບທີ່ໃຫຍ່ທີ່ສຸດໃນຊຸດ, ດີກວ່າຄູ່ແຂ່ງຊັ້ນນໍາເຊັ່ນ Llama-3-70B ໃນຂົງເຂດທີ່ສໍາຄັນ, ລວມທັງຄວາມເຂົ້າໃຈພາສາທໍາມະຊາດ, ຄວາມຮູ້, ຄວາມສາມາດໃນການຂຽນລະຫັດ, ທັກສະທາງຄະນິດສາດ, ແລະຄວາມສາມາດຫຼາຍພາສາ.

ຕາຕະລາງປຽບທຽບ Qwen2-72B-Instruct ແລະ Llama3-70B-Instruct ໃນການຂຽນລະຫັດໃນທົ່ວຫລາຍພາສາການຂຽນໂປລແກລມແລະໃນຄະນິດສາດໃນທົ່ວການສອບເສັງທີ່ແຕກຕ່າງກັນ

Qwen2-72B-Instruct versus Llama3-70B-Instruct in coding and math performance

ເຖິງວ່າຈະມີຕົວກໍານົດການຫນ້ອຍກ່ວາລຸ້ນກ່ອນ, Qwen1.5-110B, Qwen2-72B ສະແດງໃຫ້ເຫັນປະສິດທິພາບທີ່ເຫນືອກວ່າ, ເປັນພະຍານເຖິງປະສິດທິພາບຂອງຊຸດຂໍ້ມູນທີ່ຖືກຈັດລຽງຢ່າງລະມັດລະວັງຂອງ Alibaba ແລະວິທີການຝຶກອົບຮົມທີ່ດີທີ່ສຸດ.

ຄວາມປອດໄພ ແລະຄວາມຮັບຜິດຊອບ: ສອດຄ່ອງກັບຄຸນຄ່າຂອງມະນຸດ

Qwen2-72B-Instruct ໄດ້ຖືກປະເມີນຢ່າງເຂັ້ມງວດສໍາລັບຄວາມສາມາດໃນການຈັດການຄໍາຖາມທີ່ເປັນອັນຕະລາຍທີ່ກ່ຽວຂ້ອງກັບກິດຈະກໍາທີ່ຜິດກົດຫມາຍ, ການສໍ້ໂກງ, ຮູບພາບລາມົກ, ແລະການລະເມີດຄວາມເປັນສ່ວນຕົວ. ຜົນໄດ້ຮັບແມ່ນການຊຸກຍູ້: Qwen2-72B-Instruct ປະຕິບັດທຽບກັບແບບຈໍາລອງ GPT-4 ທີ່ໄດ້ຮັບຄວາມນິຍົມສູງໃນດ້ານຄວາມປອດໄພ, ສະແດງໃຫ້ເຫັນອັດຕາສ່ວນການຕອບສະຫນອງທີ່ເປັນອັນຕະລາຍຕ່ໍາກວ່າເມື່ອທຽບກັບຕົວແບບຂະຫນາດໃຫຍ່ອື່ນໆເຊັ່ນ Mistral-8x22B.

ຄວາມສໍາເລັດນີ້ຊີ້ໃຫ້ເຫັນເຖິງຄວາມມຸ່ງຫມັ້ນຂອງ Alibaba ໃນການພັດທະນາລະບົບ AI ທີ່ສອດຄ່ອງກັບຄຸນຄ່າຂອງມະນຸດ, ຮັບປະກັນວ່າ Qwen2 ບໍ່ພຽງແຕ່ມີອໍານາດ, ແຕ່ຍັງມີຄວາມຫນ້າເຊື່ອຖືແລະຄວາມຮັບຜິດຊອບ.

ການໃຫ້ໃບອະນຸຍາດ ແລະຄຳໝັ້ນສັນຍາເປີດແຫຼ່ງ

ໃນການເຄື່ອນໄຫວທີ່ຂະຫຍາຍຜົນກະທົບຂອງ Qwen2, Alibaba ໄດ້ຮັບຮອງເອົາວິທີການເປີດແຫຼ່ງສໍາລັບການອະນຸຍາດ. ໃນຂະນະທີ່ Qwen2-72B ແລະແບບຈໍາລອງການສອນຂອງມັນຍັງຄົງຮັກສາໃບອະນຸຍາດ Qianwen ຕົ້ນສະບັບ, ຮູບແບບທີ່ຍັງເຫຼືອ - Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, ແລະ Qwen2-57B-A14B - ໄດ້ຮັບໃບອະນຸຍາດພາຍໃຕ້ໃບອະນຸຍາດ Apache 2.0 ທີ່ໄດ້ຮັບອະນຸຍາດ. .

ການເປີດກວ້າງທີ່ປັບປຸງນີ້ຄາດວ່າຈະເລັ່ງຄໍາຮ້ອງສະຫມັກແລະການນໍາໃຊ້ທາງການຄ້າຂອງ Qwen2 ແບບທົ່ວໂລກ, ຊຸກຍູ້ການຮ່ວມມືແລະນະວັດກໍາພາຍໃນຊຸມຊົນ AI ທົ່ວໂລກ.

ການ​ນໍາ​ໃຊ້​ແລະ​ການ​ປະ​ຕິ​ບັດ​

ການນໍາໃຊ້ແບບຈໍາລອງ Qwen2 ແມ່ນກົງໄປກົງມາ, ຍ້ອນການເຊື່ອມໂຍງຂອງພວກເຂົາກັບກອບທີ່ນິຍົມເຊັ່ນ ໃບຫນ້າກອດ. ນີ້ແມ່ນຕົວຢ່າງຂອງການໃຊ້ Qwen2-7B-Chat-beta ສໍາລັບ inference:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-7B-Chat")
prompt = "Give me a short introduction to large language models."
messages = [{"role": "user", "content": prompt}]
text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(model_inputs.input_ids, max_new_tokens=512, do_sample=True)
generated_ids = [output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

ຂໍ້ມູນຫຍໍ້ຂອງລະຫັດນີ້ສະແດງໃຫ້ເຫັນວິທີການຕັ້ງຄ່າ ແລະສ້າງຂໍ້ຄວາມໂດຍໃຊ້ຕົວແບບ Qwen2-7B-Chat. ການ​ເຊື່ອມ​ໂຍງ​ກັບ​ ໃບຫນ້າກອດ ເຮັດໃຫ້ມັນສາມາດເຂົ້າເຖິງໄດ້ແລະງ່າຍຕໍ່ການທົດລອງ.

Qwen2 ທຽບກັບ Llama 3: ການວິເຄາະການປຽບທຽບ

ໃນຂະນະທີ່ Qwen2 ແລະ Meta's Llama 3 ທັງສອງຮູບແບບພາສາທີ່ເປັນຕາຢ້ານ, ພວກມັນສະແດງໃຫ້ເຫັນເຖິງຈຸດແຂງທີ່ແຕກຕ່າງ ແລະ ການແລກປ່ຽນການຄ້າ.

ຕາຕະລາງການປຽບທຽບປະສິດທິພາບຂອງ Qwen2-72B, Llama3-70B, Mixtral-8x22B, ແລະ Qwen1.5-110B ໃນທົ່ວຫຼາຍດັດຊະນີ

ຕາຕະລາງການປະຕິບັດການປຽບທຽບຂອງ Qwen2-72B, Llama3-70B, Mixtral-8x22B, ແລະ Qwen1.5-110B ໃນທົ່ວມາດຕະຖານຕ່າງໆລວມທັງ MMLU, MMLU-Pro, GPQA, ແລະອື່ນໆ.

ນີ້ແມ່ນການວິເຄາະປຽບທຽບເພື່ອຊ່ວຍໃຫ້ທ່ານເຂົ້າໃຈຄວາມແຕກຕ່າງທີ່ສໍາຄັນຂອງພວກເຂົາ:

ຄວາມສາມາດຫຼາຍພາສາ: Qwen2 ຖືປະໂຫຍດທີ່ຊັດເຈນໃນເງື່ອນໄຂຂອງການສະຫນັບສະຫນູນຫຼາຍພາສາ. ການຝຶກອົບຮົມຂອງຕົນກ່ຽວກັບຂໍ້ມູນກວມເອົາ 27 ພາສາເພີ່ມເຕີມ, ນອກເຫນືອຈາກພາສາອັງກິດແລະພາສາຈີນ, ຊ່ວຍໃຫ້ Qwen2 ເປັນເລີດໃນການສື່ສານຂ້າມວັດທະນະທໍາແລະສະຖານະການຫຼາຍພາສາ. ໃນທາງກົງກັນຂ້າມ, ຄວາມສາມາດຫຼາຍພາສາຂອງ Llama 3 ແມ່ນມີຄວາມຊັດເຈນໜ້ອຍ, ອາດຈະຈຳກັດປະສິດທິພາບຂອງມັນໃນສະພາບການພາສາທີ່ຫຼາກຫຼາຍ.

ທັກສະການຂຽນລະຫັດ ແລະຄະນິດສາດ: ທັງ Qwen2 ແລະ ລາມາ 3 ສະ​ແດງ​ໃຫ້​ເຫັນ coding ປະ​ທັບ​ໃຈ​ແລະ​ຄວາມ​ສາ​ມາດ​ທາງ​ຄະ​ນິດ​ສາດ​. ຢ່າງໃດກໍຕາມ, Qwen2-72B-Instruct ເບິ່ງຄືວ່າມີຂອບເລັກນ້ອຍ, ເນື່ອງຈາກການຝຶກອົບຮົມຢ່າງເຂັ້ມງວດກ່ຽວກັບຊຸດຂໍ້ມູນທີ່ມີຄຸນນະພາບສູງ, ກວ້າງຂວາງໃນໂດເມນເຫຼົ່ານີ້. ຈຸດສຸມຂອງ Alibaba ໃນການເສີມຂະຫຍາຍຄວາມສາມາດຂອງ Qwen2 ໃນຂົງເຂດເຫຼົ່ານີ້ສາມາດໃຫ້ມັນເປັນປະໂຫຍດສໍາລັບຄໍາຮ້ອງສະຫມັກພິເສດທີ່ກ່ຽວຂ້ອງກັບການເຂົ້າລະຫັດຫຼືການແກ້ໄຂບັນຫາທາງຄະນິດສາດ.

ຄວາມເຂົ້າໃຈໃນບໍລິບົດຍາວ: ແບບຈໍາລອງ Qwen2-7B-Instruct ແລະ Qwen2-72B-Instruct ມີຄວາມສາມາດທີ່ໜ້າປະທັບໃຈໃນການຈັດການຄວາມຍາວຂອງບໍລິບົດເຖິງ 128K tokens. ຄຸນນະສົມບັດນີ້ແມ່ນມີຄຸນຄ່າໂດຍສະເພາະສໍາລັບຄໍາຮ້ອງສະຫມັກທີ່ຕ້ອງການຄວາມເຂົ້າໃຈໃນຄວາມເລິກຂອງເອກະສານທີ່ມີຄວາມຍາວຫຼືວັດສະດຸດ້ານວິຊາການທີ່ຫນາແຫນ້ນ. Llama 3, ໃນຂະນະທີ່ສາມາດປະມວນຜົນລໍາດັບຍາວ, ອາດຈະບໍ່ກົງກັບການປະຕິບັດຂອງ Qwen2 ໃນຂົງເຂດສະເພາະນີ້.

ໃນຂະນະທີ່ທັງສອງ Qwen2 ແລະ Llama 3 ສະແດງໃຫ້ເຫັນການປະຕິບັດທີ່ທັນສະໄຫມ, ຮູບແບບທີ່ຫລາກຫລາຍຂອງ Qwen2, ຕັ້ງແຕ່ຕົວກໍານົດການ 0.5B ຫາ 72B, ສະຫນອງຄວາມຍືດຫຍຸ່ນແລະຂະຫນາດທີ່ສູງກວ່າ. versatility ນີ້ອະນຸຍາດໃຫ້ຜູ້ໃຊ້ສາມາດເລືອກຂະຫນາດຂອງຕົວແບບທີ່ເຫມາະສົມທີ່ສຸດກັບຊັບພະຍາກອນຄອມພິວເຕີແລະຄວາມຕ້ອງການປະສິດທິພາບຂອງເຂົາເຈົ້າ. ນອກຈາກນັ້ນ, ຄວາມພະຍາຍາມຢ່າງຕໍ່ເນື່ອງຂອງ Alibaba ໃນການປັບຂະຫນາດ Qwen2 ໃຫ້ເປັນຕົວແບບທີ່ໃຫຍ່ກວ່າສາມາດເສີມຂະຫຍາຍຄວາມສາມາດຂອງຕົນ, ເຊິ່ງອາດຈະລື່ນກາຍ Llama 3 ໃນອະນາຄົດ.

ການປະຕິບັດແລະການລວມກັນ: ການຮັບຮອງເອົາ Qwen2 ທີ່ມີປະສິດທິພາບ

ເພື່ອອໍານວຍຄວາມສະດວກໃຫ້ແກ່ການຮັບຮອງເອົາ Qwen2 ທີ່ກວ້າງຂວາງ, Alibaba ໄດ້ດໍາເນີນຂັ້ນຕອນຢ່າງຕັ້ງໜ້າເພື່ອຮັບປະກັນການຈັດຕັ້ງປະຕິບັດຢ່າງບໍ່ຢຸດຢັ້ງໃນທົ່ວເວທີ ແລະກອບວຽກຕ່າງໆ. ທີມງານ Qwen ໄດ້ຮ່ວມມືຢ່າງໃກ້ຊິດກັບໂຄງການແລະອົງການຈັດຕັ້ງພາກສ່ວນທີສາມຈໍານວນຫລາຍ, ເຮັດໃຫ້ Qwen2 ໄດ້ຮັບການ leveraged ໂດຍສົມທົບກັບລະດັບຄວາມກ້ວາງຂອງເຄື່ອງມືແລະກອບ.

ການປັບລະອຽດ ແລະປະລິມານ: ໂຄງການຂອງພາກສ່ວນທີສາມເຊັ່ນ: Axolotl, Llama-Factory, Firefly, Swift, ແລະ XTuner ໄດ້ຮັບການປັບປຸງໃຫ້ເໝາະສົມເພື່ອຮອງຮັບແບບຈໍາລອງ Qwen2 ທີ່ມີຄວາມລະອຽດ, ເຮັດໃຫ້ຜູ້ໃຊ້ສາມາດປັບແຕ່ງຕົວແບບໃຫ້ກັບວຽກສະເພາະ ແລະຊຸດຂໍ້ມູນຂອງເຂົາເຈົ້າ. ນອກຈາກນັ້ນ, ເຄື່ອງມືການຄິດໄລ່ເຊັ່ນ AutoGPTQ, AutoAWQ, ແລະ Neural Compressor ໄດ້ຖືກດັດແປງເພື່ອເຮັດວຽກກັບ Qwen2, ອໍານວຍຄວາມສະດວກໃນການນໍາໃຊ້ທີ່ມີປະສິດທິພາບໃນອຸປະກອນທີ່ມີຂໍ້ຈໍາກັດຂອງຊັບພະຍາກອນ.

ການນຳໃຊ້ ແລະການອ້າງອີງ: ແບບຈໍາລອງ Qwen2 ສາມາດຖືກນໍາໄປໃຊ້ແລະຮັບໃຊ້ໂດຍໃຊ້ກອບວຽກຕ່າງໆ, ລວມທັງ vLLM, SGL, SkyPilot, TensorRT-LLM, OpenVino, ແລະ TGI. ກອບເຫຼົ່ານີ້ສະຫນອງທໍ່ inference ທີ່ດີທີ່ສຸດ, ເຮັດໃຫ້ການນໍາໃຊ້ປະສິດທິພາບແລະຂະຫນາດຂອງ Qwen2 ໃນສະພາບແວດລ້ອມການຜະລິດ.

ເວທີ API ແລະການປະຕິບັດທ້ອງຖິ່ນ: ສໍາລັບນັກພັດທະນາທີ່ຊອກຫາການເຊື່ອມໂຍງ Qwen2 ເຂົ້າໃນແອັບພລິເຄຊັນຂອງພວກເຂົາ, ແພລະຕະຟອມ API ເຊັ່ນ Together, Fireworks, ແລະ OpenRouter ສະຫນອງການເຂົ້າເຖິງຄວາມສາມາດຂອງຕົວແບບຢ່າງສະດວກ. ອີກທາງເລືອກ, ການປະຕິບັດໃນທ້ອງຖິ່ນແມ່ນສະຫນັບສະຫນູນໂດຍຜ່ານກອບເຊັ່ນ MLX, Llama.cpp, ໂອລາມາ, ແລະ LM Studio, ໃຫ້ຜູ້ໃຊ້ສາມາດແລ່ນ Qwen2 ໃນເຄື່ອງທ້ອງຖິ່ນຂອງພວກເຂົາໃນຂະນະທີ່ຮັກສາການຄວບຄຸມຄວາມເປັນສ່ວນຕົວແລະຄວາມປອດໄພຂອງຂໍ້ມູນ.

ຕົວແທນແລະ RAG Frameworks: ການສະຫນັບສະຫນູນຂອງ Qwen2 ສໍາລັບການນໍາໃຊ້ເຄື່ອງມືແລະຄວາມສາມາດຂອງຕົວແທນແມ່ນໄດ້ຮັບການສະຫນັບສະຫນູນໂດຍກອບເຊັ່ນ: CallIndex, CrewAI, ແລະ OpenDevin. ກອບເຫຼົ່ານີ້ເຮັດໃຫ້ການສ້າງຕົວແທນ AI ພິເສດແລະການລວມເອົາ Qwen2 ເຂົ້າໄປໃນ ລຸ້ນທີ່ເພີ່ມຕື່ມ (RAG) ທໍ່, ຂະຫຍາຍຂອບເຂດຂອງຄໍາຮ້ອງສະຫມັກແລະກໍລະນີການນໍາໃຊ້.

ຊອກຫາລ່ວງຫນ້າ: ການພັດທະນາແລະໂອກາດໃນອະນາຄົດ

ວິໄສທັດຂອງ Alibaba ສໍາລັບ Qwen2 ຂະຫຍາຍອອກໄປໄກກວ່າການປ່ອຍປະຈຸບັນ. ທີມງານກໍາລັງຝຶກອົບຮົມແບບຈໍາລອງທີ່ໃຫຍ່ຂຶ້ນຢ່າງຈິງຈັງເພື່ອຄົ້ນຫາຂອບເຂດຊາຍແດນຂອງການຂະຫຍາຍຕົວແບບ, ປະກອບໂດຍຄວາມພະຍາຍາມຂະຫຍາຍຂໍ້ມູນຢ່າງຕໍ່ເນື່ອງ. ນອກຈາກນັ້ນ, ແຜນການແມ່ນກໍາລັງດໍາເນີນເພື່ອຂະຫຍາຍ Qwen2 ເຂົ້າໄປໃນພື້ນທີ່ຂອງ multimodal AI, ເຮັດໃຫ້ການເຊື່ອມໂຍງຂອງສາຍຕາແລະຄວາມສາມາດໃນການເຂົ້າໃຈສຽງ.

ໃນຂະນະທີ່ລະບົບນິເວດ AI ແຫຼ່ງເປີດຍັງສືບຕໍ່ຈະເລີນເຕີບໂຕ, Qwen2 ຈະມີບົດບາດສໍາຄັນ, ເປັນຊັບພະຍາກອນທີ່ມີປະສິດທິພາບສໍາລັບນັກຄົ້ນຄວ້າ, ນັກພັດທະນາ, ແລະອົງການຈັດຕັ້ງທີ່ຊອກຫາຄວາມກ້າວຫນ້າທາງດ້ານສິລະປະໃນການປຸງແຕ່ງພາສາທໍາມະຊາດແລະປັນຍາປະດິດ.

ຂ້ອຍໄດ້ໃຊ້ເວລາ 50 ປີທີ່ຜ່ານມາເພື່ອເຂົ້າໄປໃນໂລກທີ່ໜ້າສົນໃຈຂອງການຮຽນຮູ້ເຄື່ອງຈັກ ແລະການຮຽນຮູ້ຢ່າງເລິກເຊິ່ງ. ຄວາມກະຕືລືລົ້ນແລະຄວາມຊໍານານຂອງຂ້ອຍໄດ້ເຮັດໃຫ້ຂ້ອຍປະກອບສ່ວນເຂົ້າໃນໂຄງການວິສະວະກໍາຊອບແວທີ່ຫຼາກຫຼາຍຊະນິດຫຼາຍກວ່າ XNUMX ໂຄງການ, ໂດຍເນັ້ນໃສ່ສະເພາະກັບ AI/ML. ຄວາມຢາກຮູ້ຢາກເຫັນຢ່າງຕໍ່ເນື່ອງຂອງຂ້ອຍຍັງໄດ້ດຶງຂ້ອຍໄປສູ່ການປຸງແຕ່ງພາສາທໍາມະຊາດ, ເຊິ່ງຂ້ອຍກະຕືລືລົ້ນທີ່ຈະຄົ້ນຫາຕື່ມອີກ.