lmsys org推出的大模型竞技场chatbot arena,已成为海外最具公信力的大模型榜单之一,但该榜单中文化程度相对不足。近日,上海人工智能实验室联合魔搭社区推出中国大语言模型评测竞技场compass arena,首度集齐国内主流大模型全阵容,阿里通义千问、百度文心一言、腾讯混元、讯飞星火、字节跳动豆包、智谱ai、百川智能、零一万物、月之暗面、minimax、深度求索、书生·浦语等20款国产大模型出战,角逐中国大模型“最强王者”。
相比考题固定的传统测评,大模型竞技场采用盲测、开放的测评模式,可以更全面地检验模型实力。compass arena设置了随机、匿名对战,大模型选手们成为“蒙面唱将”,模型信息隐去后,由系统随机匹配进行pk,用户可以天马行空自由出题,并作为评委主观评判和投票。如果大模型不小心“自报家门”,则对话被过滤,不计入成绩。通过成千上万轮pk挑战和用户投票,系统将对大模型进行自动排名。
魔搭社区直播时,网友脑洞大开在线出题
compass arena由上海人工智能实验室opencompass司南评测体系与魔搭社区联合建设,前者负责组织评测,后者负责开源模型引入及社区打造。据上海人工智能实验室opencompass团队介绍,compass arena力求体现社区用户的真实反馈,评测机制借鉴chatbot arena,采用elo评分系统,即国际象棋等对弈活动评估的权威标准。在这种模式下,大模型竞技类似“在游戏中打排位”,胜率成为评估模型水平的关键指标,同时随着排位变高,系统也会自动匹配高段位选手进行对战。
与chatbot arena相比,compass arena更聚焦中文大模型,主流国产大模型全覆盖,同时评测用户大多使用中文,可以充分评估国产大模型的性能。
目前,compass arena已汇聚超20款商业及社区模型,包括qwen-max、ernie-4.0-8k、spark3.5 max、abab6.5、glm4等国内头部厂商的旗舰款大模型,并引入了llama3、mixtral等海外标杆模型进行参照。更多模型及厂商还在不断加入中。
上线不到一周,已有上万人访问魔搭compass arena页面。魔搭社区表示,欢迎广大开发者和网友参与大模型排位赛的投票,共同促进国产大模型的进步和赶超。后续,compass arena首期排行榜将揭晓,并将定期公布更新。
魔搭社区compass arena链接:https://www.modelscope.cn/studios/opencompass/compassarena
compass arena首批大模型名单:
abab6.5-chat (minimax)
baichuan 4 (百川智能)
c4ai command r (cohere)
dbrx-instruct (databricks)
deepseek-llm-67b-chat(深度求索)
deepseek-moe-16b-chat(深度求索)
doubao-pro-4k (字节豆包)
ernie-4.0-8k (百度文心一言)
glm4 (智谱ai)
hunyuan-pro (腾讯混元)
internlm2系列(上海ailab书生·浦语)
llama3系列(meta)
mixtral 8x22b instruct (mistral)
moonshot-v1-32k (月之暗面)
qwen1.5系列 (阿里通义千问)
qwen-max (阿里通义千问)
spark3.5-max (讯飞星火)
yi-34b-chat (零一万物)
yi-large (零一万物)
雷峰网(公众号:雷峰网)
雷峰网918博天堂官网的版权文章,未经授权禁止转载。