FlagEval

FlagEval(天秤)是北京智源人工智能研究院(BAAI)研发的科学、公正、开放的大模型评测体系及开放平台,旗下包含FlagEval大模型评测平台与FlagEval-Robo具身智能评测平台两大核心板块,可协助研究人员全方位评估基础模型、具身智能模型及训练算法的性能,同时通过AI辅助主观评测提升评测效率与客观性。

FlagEval大模型评测具身智能评测评测平台
1访问 1 更新于 2026-03-22 18:24

声明:文档由AI生成,仅作参考,最终功能和计费标准以官方为准。

一、产品概述

FlagEval(天秤)是北京智源人工智能研究院(BAAI)研发的科学、公正、开放的大模型评测体系及开放平台,旗下包含FlagEval大模型评测平台与FlagEval-Robo具身智能评测平台两大核心板块,可协助研究人员全方位评估基础模型、具身智能模型及训练算法的性能,同时通过AI辅助主观评测提升评测效率与客观性。

ScreenShot_2026-03-22_180726_549.png

ScreenShot_2026-03-22_180814_600.png

二、产品特色

FlagEval大模型评测平台核心特色

ScreenShot_2026-03-22_180735_149.png

  1. 构建能力-任务-指标三维评测框架,细粒度刻画基础模型认知能力边界,可视化呈现评测结果。
  2. 覆盖四大评测领域,包含自然语言处理(NLP)、计算机视觉(CV)、音频(Audio)、多模态(Multimodal),支持超800个开源/闭源模型评测,已完成1010+模型评测工作。
  3. 提供丰富评测资源,含超22个数据集、8万道评测题目,覆盖30多种能力、5种任务和4大类指标,共超600个评测维度。
  4. 支持自动化+人工双评测模式,实现主观与客观评测的全自动流水线,同时提供排行榜功能直观展示模型性能。
  5. 兼容多AI框架(PyTorch、MindSpore)与多硬件架构(NVIDIA、昇腾、寒武纪、昆仑芯等),适配性强。
  6. 作为智源FlagOpen大模型开源技术体系重要组成,秉持开源开放理念,支持共建共享评测数据集。

FlagEval-Robo具身智能评测平台核心特色

  1. 专为具身智能打造,支持基准、仿真、实景、物理安全四大评测场景(后三者待上线),可系统化评估具身智能模型的感知、理解与操作能力。
  2. 支持多模态任务数据采集、上传与标准化处理,实现一测多体、任务驱动、通用泛化的评测特性。
  3. 基准评测可全面衡量具身智能模型在“感知–理解–表达”与“感知–决策–执行”链条的综合能力,覆盖图像感知、语言指令理解等多模态核心能力。
  4. 与FlagOS-Robo深度集成,打通具身智能模型从训练、部署到评测的完整链路,支持真机实验和自动化评估。

三、收费标准

官方网站未公示产品收费标准、计费规则及套餐信息,相关资费详情请以官方最新说明为准。

四、常见问题

Q:FlagEval支持哪些类型的模型评测?

A:FlagEval大模型评测平台支持语言大模型、多模态大模型、计算机视觉模型、语音语言大模型的评测;FlagEval-Robo专注于具身智能模型的评测,覆盖不同机器人形态和任务类型。

Q:如何在FlagEval平台提交模型评测任务?

A:首先需注册并登录FlagEval官网,准备好待评测模型文件、推理代码及相关配置文件;安装FlagEval-Serving工具,通过平台获取token后用命令行上传文件;在平台创建评测任务并填写评测领域、模型信息、卡型等参数,提交后平台将自动运行评测流程,完成后可查看详细评测结果。

Q:FlagEval的评测结果以何种形式呈现?

A:评测结果将通过可视化图表、详细性能指标表格、专业分析报告等形式呈现,同时平台提供排行榜功能,直观展示不同模型的性能对比结果。

Q:FlagEval是否支持自定义评测任务?

A:目前FlagEval主要提供标准化的评测任务,针对特殊的定制化评测需求,可与智源研究院进一步沟通探索。

Q:FlagEval与FlagOS-Robo是什么关系?

A:FlagEval-Robo是FlagOS-Robo具身智能训练与推理一体化框架的核心评测组件,FlagOS-Robo训练部署后的具身智能模型,可通过FlagEval-Robo进行集成测试和自动化评估,二者共同构成具身智能模型全生命周期的技术支撑。

Q:FlagEval支持哪些硬件架构?

A:目前支持NVIDIA的A100、A800、V100、T4,寒武纪的MLU370-X8,昆仑芯的R300,以及昇腾的910A等多种硬件架构。