标签:LLM评估
挖掘「缝合」的潜力:CapaBench 揭示 LLM 智能体中各个模块的作用
CapaBench框架通过模块化设计和合作博弈论中的Shapley值方法,系统性评估大型语言模型代理中不同功能模块的贡献度。该框架将代理系统解构为规划、推理、行动...
战胜100多位NLP研究人员!杨笛一团队最新百页论文:首次统计学上证明,LLM生成的idea新颖性优于人类
斯坦福大学的研究团队在一项为期一年的大规模实验中,对大型语言模型(LLMs)在科学研究创意生成方面的能力进行了评估。研究结果表明,LLMs在产生新颖想法方...