标签:评估框架
别让大模型想太多了,过度思考会影响性能
加州大学伯克利分校和苏黎世联邦理工学院等高校的研究人员深入探讨了大模型在执行Agent任务时面临的“过度思考”问题。过度思考是指大模型过度依赖内部推理,而...
这才是真・开源模型!公开「后训练」一切,性能超越Llama 3.1 Instruct
艾伦人工智能研究所(Ai2)最近推出了Tülu 3,这是一个开源的大型语言模型,包含8B和70B两个版本,并且未来将推出405B版本。Tülu 3的性能超过了Llama 3.1 Ins...
李飞飞吴佳俊团队新作:推出具身智能决策能力评价基准,o1-preview登顶 | NeurIPS
李飞飞和吴佳俊团队提出了一个新的评估框架——Embodied Agent Interface(EAI),旨在全面检查具身智能决策的四项关键子能力。EAI框架提供了统一的目标表示方...