加快发展人工智能检验检测服务,完善AI产业生态
时间:2025-04-01 点击:37 来源:
内容摘要:人工智能技术发展迅速,大模型、AGENT、具身智能、通用人工智能(AGI)等新概念和新技术层出不穷。大模型基准评测作为研究较为深入的领域,助力其他新技术的发展。AgentBench、ToolBench、ToolEval等是面向AGENT的代表性评测框架或数据集,通过搭建仿真环境,重点考察大模型与外界交互下完成复杂任务的能力,如网络购物、数据库操作等。SQA3D、Behavior-1k、Mini-BEHAVIOR等利用3D问答、空间操作等任务评估大模型在具身智能领域内的表现。