标签：LLM评估

挖掘「缝合」的潜力：CapaBench 揭示 LLM 智能体中各个模块的作用

CapaBench框架通过模块化设计和合作博弈论中的Shapley值方法，系统性评估大型语言模型代理中不同功能模块的贡献度。该框架将代理系统解构为规划、推理、行动...

AIGC动态

19小时前

战胜100多位NLP研究人员！杨笛一团队最新百页论文：首次统计学上证明，LLM生成的idea新颖性优于人类

斯坦福大学的研究团队在一项为期一年的大规模实验中，对大型语言模型（LLMs）在科学研究创意生成方面的能力进行了评估。研究结果表明，LLMs在产生新颖想法方...

AIGC动态

5个月前