标签:模型性能
DeepSeek流量超Gemini登顶全球第二!马斯克挟xAI更强模型宣战
DeepSeek作为新兴AI聊天机器人,在推出两个月后迅速崛起,以614%的流量增长率超越谷歌Gemini,成为全球访问量第二的AI应用。SimilarWeb数据显示其日访问量峰...
DeepSeek R1来了,追平o1!它现在不但比OpenAI开放,也比它有活力
DeepSeek R1系列模型的发布标志着一项技术突破,该系列包括三个模型:DeepSeek-R1-Zero、DeepSeek-R1和小型密集模型。DeepSeek-R1-Zero通过仅使用强化学习(R...
OpenAI正式发布o3 – 通往AGI的路上,已经没有了任何阻碍。
OpenAI在12天的直播中发布了其最新的人工智能模型OpenAI o3,标志着该公司在人工智能领域的又一重大进步。o3在多个评测集上展现出卓越的性能,包括软件工程考...
OpenAI深夜炸场!一口气放出o1模型全家桶,月费200美元的ChatGPT Pro被狂槽:Altman只想躺在印钞机上数钱
OpenAI最近宣布了两项重大更新,首先是o1模型的完整版本上线ChatGPT,并即将推出API。这个新模型在数学、科学和编码等ML基准测试中表现更优,错误率减少了34%...
遗憾不?原来百度2017年就研究过Scaling Law,连Anthropic CEO灵感都来自百度
在人工智能领域,Scaling Law是一个关键概念,它描述了深度学习模型的泛化误差和模型大小随着训练集规模的增长而呈现出可预测的幂律关系。这一概念最早被百度...
微软和清华大学为 LLM 提出了 DIFF Transformer 架构
微软AI和清华大学的研究人员联合提出了一种新型架构——差分Transformer(DIFF Transformer),旨在提升大型语言模型的性能。该架构通过改进模型处理上下文的方...
字节跳动、中科院开源多模态数据集—WebMath-40B
字节跳动和中国科学院的研究人员联合发布了超大多模态数据集InfiMM-WebMath-40B,旨在推动多模态大模型的发展。该数据集从Common-Crawl中筛选提炼而成,包含2...
一张显卡看遍天下电影!智源联合高校开源Video-XL打破长视频理解极限,95%准确率刷爆纪录
智源研究院联合国内多所顶尖高校推出了超长视频理解大模型Video-XL,这一模型在处理小时级视频上展现了卓越的性能和泛化能力。Video-XL利用语言模型的原生能...
这篇论文非常火!差分Transformer竟能消除注意力噪声,犹如降噪耳机
微软研究院和清华大学的研究团队提出了一种新型的Transformer架构——Differential Transformer(简称Diff Transformer),旨在解决传统Transformer在处理大型...
Claude 3.5核心编码prompt揭秘,全网码农沸腾!四步调教法,最新V2版放出
Reddit社区中,一个名为ssmith12345uk的用户分享了一套针对Claude 3.5编码系统的提示词,这套提示词融合了Anthropic元提示的一些思路,解决了之前遇到的一些...
1
2