主要概览

司南 OpenCompass 大语言模型官方自建榜单(9 月榜)评测拟定于 10 月上旬发布,现诚挚邀请新加入的合作方参与评测。本次评测围绕强化能力维度,全面覆盖语言、推理、知识、代码、数学、指令跟随、智能体等七大关键领域,进一步细化评测颗粒度,确保模型能力的精准衡量,并提供客观、全面的评测结果,为评估当前技术水平、牵引产品研发、支撑行业应用提供抓手。诚挚欢迎新加入的模型厂商、组织机构申请参与评测,共同推动大模型技术的发展与创新。

评测维度

司南 OpenCompass 大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随、智能体七大能力维度,这七个维度可以被进一步细分为包括自然语言处理、理工科知识、常识推理、数值计算能力、代码续写、算法面试、高等数学、通用工具调用等十余项细分任务,力图对行业开源模型和商业 API 模型进行全面评测分析。

评测模型类型

开源模型

开源模型参与榜单评测,请提供 Hugging Face 或 ModelScope 公开模型权重仓库链接

已提供商业化服务,可访问的 API 模型

申请方法

新加入的模型厂商、组织机构可在 9 月 25 日 前写邮件至 opencompass@pjlab.org.cn 申请评测。请在邮件内附上下述信息,以便我们尽快与您对接。邮件内容需包括:

  • 申请单位信息

  • 模型简介

  • 联系人和所属部门

  • 联系方式

  • 模型类型

  • 该模型类型对应需要提供的信息

    (详见:评测模型类型)

*已经提供对外服务且参与过司南评测的模型,司南后续更新榜单时默认对最新版本模型进行评测。

注意事项

  1. 大语言模型官方自建榜评测榜单将于 2024 年 10 月上旬发布 2024 年 9 月榜单

  2. 新模型厂商若想参与该月榜单评测,可在当月25日前申请加入司南 OpenCompass 月度评测榜单

  3. 加入司南 OpenCompass 评测的结果默认公开;已经提供对外服务且参与过评测的模型,后续更新榜单时默认进行评测

  4. 仅支持开源或对外提供 API 服务商业化模型(内部迭代研发模型暂不支持评测)

联系我们

更多信息可参考:

司南 OpenCompass 榜单建设及发布规则(https://opencompass.org.cn/rule

申请本次评测参与或有任何疑问,请联系:opencompass@pjlab.org.cn

OpenCompass 司南评测体系主要包括以下三大模块,欢迎大家使用。

1. 评测工具链体系 CompassKit,不仅提供完整的开源可复现评测代码,更提供了丰富的模型支持和高效的分布式评测策略。

开源地址:

https://github.com/open-compass

2. 高质量评测基准社区 CompassHub,面向大模型能力评测开源开放的基准社区,提供海量的面向不同能力维度和行业场景的评测基准。

社区地址:

https://hub.opencompass.org.cn/home

3. 权威评测榜单 CompassRank,作为 OpenCompass 中各类榜单的承载平台,CompassRank 不受任何商业利益干扰,保持中立性。

榜单地址:

https://rank.opencompass.org.cn/home

点赞(0) 打赏

评论列表 共有 0 条评论

暂无评论

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部