从结果评测到过程评测:滴普科技发起并联合多所高校共建AgentOS OpenLab 智能体评测开放实验室
2026 年 6 月 12 日AgentOS OpenLab 智能体评测开放实验室在深圳成立。实验室由滴普科技发起南方科技大学 AgentOS 项目组牵头研究与运营同时联合北京邮电大学、英国布里斯托大学、南开大学、上海交通大学、天津大学、香港中文大学等多所海内外高校作为创始共建团队聚焦智能体过程级评测基础设施建设致力于打造开放、中立、可复现的开源社区。随着大模型应用从内容生成逐步走向任务执行智能体在规划、工具调用、环境交互和自我修正等方面的能力正在成为评估其实用性的重要维度。仅以最终结果是否正确作为判断依据已难以完整反映智能体在复杂任务中的真实表现。尤其在科研和企业场景中若任务理解、执行路径或差错修正机制存在偏差即使阶段性得到“正确结果”也可能带来复现困难和潜在风险。因此将执行过程纳入评测已成为提升智能体可信度的重要方向。基于这一背景AgentOS OpenLab 围绕智能体执行全过程构建评测闭环覆盖执行轨迹记录、关键检查点切分、评测规则与测试任务生成、测试执行、评分报告输出以及轨迹记忆沉淀等环节。与更侧重结果判断的传统方式相比OpenLab 更强调基于 Rubric 的过程级验证希望通过更明确的评价标准、过程证据和可复现实验提高 智能体评测的透明度和可信度。在共建机制上AgentOS OpenLab 采取多主体协同模式。研究与运营由南方科技大学牵头滴普科技作为发起方、赞助方和资源支持方参与建设Benchmark、评测任务、轨迹库、工具及治理机制则由创始共建团队共同推进。该机制旨在避免由单一主体定义标准增强评测体系的开放性和中立性。成立仪式期间与会嘉宾围绕过程级评测的必要性、复杂长链路任务的评测标准以及开放中立机制对可信评测的重要意义等议题展开交流。按照规划6 月底OpenLab 将完成 MVP Benchmark 与首批共建任务的跑通7 月创始共建团队将围绕实际使用情况反馈问题与改进建议9 月底计划发布开源工具、评测结果、数据集及阶段性研究成果年底将推动 Agent Benchmark Challenge 与年度发布活动。后续实验室还将陆续开放 MVP Benchmark、评测工具、轨迹库、Leaderboard 与贡献指南在GitHub与HuggingFace 平台面向研究者、开发者、学生及企业技术团队开放共建。AgentOS OpenLab 的成立为产学研协同推进智能体过程级评测提供了一个开放平台。对滴普科技而言参与发起并支持 OpenLab是其推动开放技术社区建设、加强产学研协同的一项具体举措。未来滴普科技将持续深化产学研协同将过程级评测的最佳实践转化为产业生产力加速推动可信、可靠、可控的智能体在企业场景中真正落地。GitHub https://github.com/agentos-openlabHuggingFace https://huggingface.co/agentos-openlab