近日,在AICon全球人工智能开发与应用大会上,字节跳动数据平台大模型评测技术负责人系统分享了其团队在Data Agent(数据智能体)自动化评测领域的技术创新与实践。面对大模型在数据行业应用日益广泛但效果评估标准不一的挑战,字节跳动数据平台提出了一套覆盖技术选型、研发迭代至业务效果验证的“三层评测框架”,并倡导以“评估驱动开发”(EDD)的新范式,以推动大模型在数据分析、商业智能等领域的深度赋能与可靠落地。
随着大模型技术不断成熟,其在数仓开发、ChatBI问答及深度分析Agent等场景的应用显著提升了数据处理效率。然而,如何科学、客观地评估这些应用的实际效果,避免“线上表现与线下评测脱节”,已成为行业关注的焦点。据相关负责人介绍,传统软件测试的用例执行方法难以适用于大模型,评测需综合考量效果(如事实性、有用性、无害性)、性能(如响应速度、时延)与稳健性(如容错与抗干扰能力)等多方面指标。
为解决上述问题,字节跳动数据平台团队构建了一套分层评测体系。底层为“基础能力评测”,通过引入多个业界公认的基准测试集,为不同模型设立准入门槛,确保进入实验阶段的模型具备扎实的工具调用、代码生成与复杂指令理解能力。中间层为“组件评测”,将复杂的Agent任务拆解为召回、规划、执行、总结等单元模块,进行精细化评估,以快速定位问题、推动高效迭代。顶层为“端到端业务效果评测”,通过构建贴近真实场景的评测集,并建立“数据飞轮”机制,持续将线上实际案例转化为评测数据,确保评估结果真实反映用户体验。
在Text-to-SQL这一数据领域核心任务的评测中,该团队创新提出基于“语义等价”的自动化评测方法。传统方法依赖执行结果正确性或文本相似度,易因数据不完备或语法差异导致误判。字节跳动数据平台采用Apache Calcite将SQL转换为抽象语法树(AST)与执行层语法表示(RelNode),结合图匹配网络(GMN)计算逻辑层面的相似度。相关方法在多项基准测试中表现优于传统手段,显著提升了SQL准确性评估的可靠性。
面对“深度研究”类Data Agent产品带来的复杂挑战,字节跳动数据平台还探索了“以Agent评测Agent”的前沿路径。基于“挑错易、复盘可行”等原则,评测Agent通过自我反思、多Agent协作及代码复算等方式,对分析报告的深度、准确性、可读性与稳定性进行多维度自动化校验。
分享中谈到,未来自动化评测将更注重线上线下一致性、多模态能力覆盖及与模型训练的深度结合。通过将评估更紧密融入Agent架构,有望实现从“测试驱动”到“评估驱动”的范式转变,最终推动大模型应用更精准、高效地创造业务价值。




