快讯详情
美团LongCat发布VitaBench评测基准
电商报| 2025-10-21 11:12:20

10月21日消息,美团LongCat团队日前正式发布当前高度贴近真实生活场景、面向复杂问题的大模型智能体评测基准——VitaBench(Versatile Interactive Tasks Benchmark)。VitaBench以外卖点餐、餐厅就餐、旅游出行三大高频真实生活场景为典型载体,构建了包含66个工具的交互式评测环境,并进行了跨场景的综合任务设计。例如,在旅游规划任务中,要求智能体通过思考、调用工具和用户交互,完整执行从买好票到订好餐厅的终端状态。

转载之前请先阅读转载说明,违规转载法律必究
寻求报道或合作,请点击这里
如果您加入壹览的讨论群,请联系我们的工作人员(微信号:star_3979)