国产大模型全阵容，中文大模型竞技场推出！-博天堂在线开户

国产大模型全阵容，中文大模型竞技场推出！行业新闻

威尔德编辑 8天前 6301

lmsys org推出的大模型竞技场chatbot arena，已成为海外最具公信力的大模型榜单之一，但该榜单中文化程度相对不足。近日，上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场compass arena，首度集齐国内主流大模型全阵容，阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱ai、百川智能、零一万物、月之暗面、minimax、深度求索、书生·浦语等20款国产大模型出战，角逐中国大模型“最强王者”。

相比考题固定的传统测评，大模型竞技场采用盲测、开放的测评模式，可以更全面地检验模型实力。compass arena设置了随机、匿名对战，大模型选手们成为“蒙面唱将”，模型信息隐去后，由系统随机匹配进行pk，用户可以天马行空自由出题，并作为评委主观评判和投票。如果大模型不小心“自报家门”，则对话被过滤，不计入成绩。通过成千上万轮pk挑战和用户投票，系统将对大模型进行自动排名。

魔搭社区直播时，网友脑洞大开在线出题

compass arena由上海人工智能实验室opencompass司南评测体系与魔搭社区联合建设，前者负责组织评测，后者负责开源模型引入及社区打造。据上海人工智能实验室opencompass团队介绍，compass arena力求体现社区用户的真实反馈，评测机制借鉴chatbot arena，采用elo评分系统，即国际象棋等对弈活动评估的权威标准。在这种模式下，大模型竞技类似“在游戏中打排位”，胜率成为评估模型水平的关键指标，同时随着排位变高，系统也会自动匹配高段位选手进行对战。

与chatbot arena相比，compass arena更聚焦中文大模型，主流国产大模型全覆盖，同时评测用户大多使用中文，可以充分评估国产大模型的性能。

目前，compass arena已汇聚超20款商业及社区模型，包括qwen-max、ernie-4.0-8k、spark3.5 max、abab6.5、glm4等国内头部厂商的旗舰款大模型，并引入了llama3、mixtral等海外标杆模型进行参照。更多模型及厂商还在不断加入中。

上线不到一周，已有上万人访问魔搭compass arena页面。魔搭社区表示，欢迎广大开发者和网友参与大模型排位赛的投票，共同促进国产大模型的进步和赶超。后续，compass arena首期排行榜将揭晓，并将定期公布更新。

魔搭社区compass arena链接：https://www.modelscope.cn/studios/opencompass/compassarena

compass arena首批大模型名单：

abab6.5-chat (minimax)

baichuan 4 (百川智能)

c4ai command r (cohere)

dbrx-instruct (databricks)

deepseek-llm-67b-chat（深度求索）

deepseek-moe-16b-chat（深度求索）

doubao-pro-4k (字节豆包)

ernie-4.0-8k (百度文心一言)

glm4 (智谱ai)

hunyuan-pro (腾讯混元)

internlm2系列（上海ailab书生·浦语）

llama3系列（meta）

mixtral 8x22b instruct (mistral)

moonshot-v1-32k (月之暗面)

qwen1.5系列 (阿里通义千问)

qwen-max (阿里通义千问)

spark3.5-max (讯飞星火)

yi-34b-chat (零一万物)

yi-large (零一万物)

雷峰网(公众号：雷峰网)

雷峰网918博天堂官网的版权文章，未经授权禁止转载。

注：本文转载自雷锋网，如需转载请至雷锋网918博天堂官网申请授权，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如有侵权行为，请联系918博天堂官网，我们会及时删除。

成都威尔德公司承接各种互联网业务-帮助中小企业转型互联网加- 918博天堂官网的版权声明 1、本主题所有言论和图片纯属会员个人意见，与博天堂在线开户-918博天堂官网立场无关。
2、本站所有主题由该帖子作者发表，该帖子作者威尔德编辑与博天堂在线开户-918博天堂官网享有帖子相关918博天堂官网的版权。
3、博天堂在线开户-918博天堂官网管理员和版主有权不事先通知发贴者而删除本文。
4、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者威尔德编辑和博天堂在线开户-918博天堂官网的同意。