标签:测试

刚刚,o4-mini发布!OpenAI史上最强、最智能模型

OpenAI在技术直播中发布了其最新的多模态模型o4-mini和满血版o3,这两款模型能够同时处理文本、图像和音频,并具备调用外部工具的能力。这一创新使得模型能够...

GPT-4.1偷偷开跑?神秘模型上线三天已被玩疯,网友发现大量OpenAI痕迹

Optimus Alpha作为一款新推出的大模型,在短时间内展现了惊人的处理能力,日Token处理量已超过340亿,位列Trending榜单第一。其表现不仅在编程任务中尤为突出...

刚刚,OpenAI开源BrowseComp,重塑Agent浏览器评测

OpenAI于今天凌晨2点开源了专门用于智能体浏览器功能的测试基准——BrowseComp。这一测试基准的难度极高,即使是OpenAI自家的GPT-4o和GPT-4.5模型,准确率也仅...

Llama 4 刷榜作弊引热议,20 万显卡集群就做出了个这?

Meta近日发布了Llama 4系列模型,包括Llama 4 Scout、Llama 4 Maverick和Llama 4 Behemoth,宣称这些模型经过大量未标注的文本、图像和视频数据训练,视觉理...

Llama 4发布36小时差评如潮!匿名员工爆料拒绝署名技术报告

Meta最新发布的基础模型Llama 4在发布36小时后,引发了广泛的负面评价,尤其是在代码能力方面表现不佳。经典的小球反弹测试中,模型未能正确模拟物理效果,小...

DeepSeek V3“小版本升级”实测堪比V3.5,非推理模型也有“啊哈时刻”,7米甘蔗过2米门想通了

DeepSeek V3-0324的发布虽然被官方称为“小版本升级”,但实际表现却远超预期。该版本在多个测试中展现出显著的能力提升,尤其是在复杂问题的处理上。例如,在4...

DeepSeek 发布 V3 模型更新:除了编程能力大幅提升,还有更宽松的开源协议

DeepSeek V3 模型的最新更新在编程能力上取得了显著提升,尤其是在前端编码方面。此次更新虽然是小版本升级,但已经在其官方网页、App 小程序等入口开放。新...

3天后,我觉得可以再来聊聊Manus了。

在3天前的晚上,作者通过腾讯会议邀请朋友共同测试并体验了一款名为“Ma”的新产品,测试从凌晨12点持续到4点,随后作者花费了数小时撰写并发布了可能是全网第...

不吹不黑,拿到邀请码一手实测Manus,还有人0天就复刻出了开源版

Manus 是一款近期引起广泛关注的通用 AI Agent,能够执行多种任务,包括文件处理、数据分析、代码编写和内容创作等。尽管其功能多样,但由于邀请码的稀缺性,...

发布几小时,微软秒删媲美GPT-4开源大模型!竟因忘记投毒测试

微软近期发布了一款新的大型语言模型WizardLM-2,该模型被宣称具有与GPT-4相媲美的性能。然而,令人意外的是,这个模型在上线几小时后就被删除了。原因是微软...
1 2