IT之家 4 月 11 日音问狠狠干,据中国信通院当天音问,海外电信定约电信标准分局(ITU-T)于 2025 年 3 月崇拜发布 ITU-T F.748.44 基础模子的评估标准:基准测试 / Assessment criteria for foundation models: Benchmark。
该项海外标准由中国信息通讯斟酌院(简称“中国信通院”)牵头制定,表率了大模子基准测试的观点要乞降测试表率。该标准旨在鼓吹大模子基准测试体系架构变成海外共鸣,为大模子期间提供方和期骗方提供高质地的智商评估依据,提醒大模子期间及产业健康有序发展。
近些年来狠狠干,何如客不雅、全面地测度大模子智商况且充分挖掘大模子潜在过错得回产学研各界的闲居原宥。模子基准测试(Benchmark)通过盘算合理的测试任务和评价数据集来客不雅、公正、量化的评估模子的性能,是现在产业界和学术界最为招供的模子智商评估表率。
面前已颠倒百个基准测试表率和数据集用于测度大模子的智商,举例 MMLU、C-Eval、AGIEval、GSM8K 等。但面前产学研各界对大基础模子基准测试的体系、观点、数据集、表率、平台用具等仍未已毕一致,零落长入的标准,导致大模子评测的箝制公正性受到质疑。为进一步鼓吹大模子基准测评的期间发展与本体期骗,充分开释基准测试在东说念主工智能限制的价值,特纠合相干单元开展标准的编制职责。
本次发布的海外标准基于面前产学研界 500 余项基准测试系统性斟酌,一方面修复了大模子基准测试的 4 项中枢身分,包括测试维度(测试场景、测试智商、测试任务和测试观点)、测试数据集、测试表率和测试用具。另一方面,针对通用场景的基础模子,提供了标准化的测试用例和范例过程,以支抓企业表率开展大模子智商评估。
IT之家从中国信通院官方获悉,中国信通院东说念主工智能斟酌所于 2023 年开动布局大模子基准测试斟酌,并于 2023 年底发布“方升”大模子基准测试体系,推出自顺应动态测试表率,积攒 600 万条数据集,构建 FactTeting 测试用具,撑抓所有这个词这个词大模子测试过程的自动化执行。
自 2024 年以来,参照已发布的 ITU 大模子基准测试海外标准,对国表里标杆大模子以两个月为周期开展抓续监测职责狠狠干,包括 OpenAI o1、DeepSeek R1、Gemini 2.5 Pro、Claude 3.7 Sonnet、Qwen2.5-Max、百度文心大模子 X1 等上百个测试模子,现在已发布大言语通用智商、推贤人商、代码智商,多模态交融智商、文生图智商、文生视频智商等多个轮次的评测箝制。海外标准 ITU-T F.748.44 的发布是大模子测试限制的顾惜标准化后果,对鼓吹期间转变和发展、引颈行业发展趋势、促进海外互助与疏导等方面具有顾惜真理。