标签:性能对比

首个OpenAI免费推理模型o3-mini发布!DeepSeek让奥特曼反思:不开源我们错了

OpenAI最近发布了o3-mini系列推理模型,旨在推动低成本推理的边界。该系列包含三个版本:low、medium和high,其中o3-mini和o3-mini-high已上线。o3系列模型针...

DeepSeek R1有没有赶上OpenAI o1? 八大场景测评结果出炉

DeepSeek-R1推理模型以其出色的性能和较低的训练成本,在AI竞技场中与OpenAI的o1模型和o1 Pro模型展开激烈竞争。在科技媒体arstechnica资深编辑的对比测试中...

GPU 这么厉害,我们为什么还要用 CPU?

一段2009年的Twitter视频通过CPU和GPU连接到发射彩弹的机器上进行绘画对决,直观展示了两者的区别。视频中,CPU用30秒画出一个笑脸,而GPU瞬间完成蒙娜丽莎的...

游戏表现仍落后前代和AMD,英特尔Core Ultra 200S修复被曝未达预期

英特尔的酷睿 Ultra 200S 系列处理器,代号为 Arrow Lake-S,在发布后因性能问题受到用户反馈。尽管英特尔随后发布了修复程序,但根据Tomshardware的实测结果...

华为与哈工深等最新研究成果:SPA-Bench,手机操控智能体评估新标准

华为诺亚方舟实验室与哈尔滨工业大学(深圳)联合提出了SPA-Bench(SmartPhone Agent Benchmark),一个全新的评估框架,旨在解决现有手机智能体基准测试的局...

Claude 3.5两小时暴虐50多名专家,编程10倍速飙升!但8小时曝出惊人短板

最新研究显示,在2小时的研发任务中,AI智能体Claude 3.5 Sonnet和o1-preview在7项具有挑战性的研究工程中击败了50多名人类专家。AI编程速度能以超越人类10倍...

耗资1.3万,ASU团队揭秘o1推理王者!碾压所有LLM成本超高,关键还会PUA

ASU团队的最新研究对OpenAI的新型大推理模型o1-preview进行了全面评估,发现其在推理规划能力方面表现卓越,但成本高昂。研究使用了PlanBench测试基准,结果...

一张图看懂大模型性价比:能力、价格、并发量全面PK

当前,国内云厂商的大模型价格战正酣,部分模型价格降幅高达99%,甚至有的模型实现免费提供。然而,在这场看似遍地的黄金降价潮中,实则隐藏着诸多细节和考量...

别再说国产大模型技术突破要靠 Llama 3 开源了

近日,Meta发布了开源大模型Llama 3的8B和70B版本,引起了AI界的广泛关注。Meta声称Llama 3在多种行业基准测试上展现了最先进的性能,并提供了包括改进的推理...

英伟达竞品来了,训练比H100快70%,英特尔发最新AI加速卡

在大会上,展示了其子公司的最新一代人工智能加速器,预计将于推出。Gaudi 3的亮点在于其的,认为这足以让其在占有一席之地。内部基准测试显示,在性能上超过...
1 2