FlagEval （天秤）

FlagEval （天秤）大模型评测体系及开放平台，旨在建立科学、公正、开放的评测基准、方法、工具集，协助研究人员全方位评估基础模型及训练算法的性能，同时探索利用AI方法实现对主观评测的辅助，大幅提升评测的效率和客观性。FlagEval （天秤）创新构建了“能力-任务-指标”三维评测框架，细粒度刻画基础模型的认知能力边界，可视化呈现评测结果。目前已推出语言大模型评测、多语言文图大模型评测及文图生成评测等工具，并对广泛的语言基础模型、跨模态基础模型实现了评测。后续将全面覆盖基础模型、预训练算法、微调/压缩算法等三大评测对象，包括自然语言处理（NLP）、计算机视觉（CV）、音频（Audio）及多模态（Multimodal）等四大评测场景和丰富的下游任务。

FlagEval 是智源FlagOpen大模型开源技术体系的重要组成部分。FlagOpen 旨在打造全面支撑大模型技术发展的开源算法体系和一站式基础软件平台，支持协同创新和开放竞争，共建共享大模型时代的“Linux”开源开放生态。

刻画模型认知能力

通过“能力-任务-指标”三维评测框架，刻画模型在认知层面，对事物的构成、性能、关系以及发展的动力、方向、基本规律的把握能力。

权威评测榜单

FlagEval 作为科技部“科技创新2030”重大项目之一，已与国内高校及科研单位展开深度合作，评测结果透明公开，并提供分领域、分任务的排行榜。

一键自动化评测

基础模型评测支持用户上传模型或通过 API 评测；算法评测支持用户自选模型与数据集，操作简单，灵活便捷。

多芯片多框架评测

强调对国产芯片和框架的支持。现已支持英伟达、昇腾（鹏城云脑）、昆仑芯、寒武纪芯片，支持PyTorch、MindSpore深度学习框架。