大模型

LLM,VLM,模型

大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当

微软研究院最近推出了首个FP4精度的大模型训练框架,这一技术能够在保持与FP8和BF16相当的训练效果的同时,显著减少所需的存储和计算资源。该框架支持高达130...

DeepSeek一夜之间,成了美国的众矢之的。

DeepSeek应用在全球范围内引起广泛关注后,意大利政府以数据安全为由,将其从Appstore和谷歌商店下架,理由是DeepSeek服务器设在中国,可能导致意大利用户数...

新春伊始,国产EDA从美国传回喜讯

在农历蛇年春节之际,DesignCon大会在美国加州举行,聚焦电子设计、高速通信和系统设计。芯和半导体连续第12年参展,从一个小展位发展到中央场馆,展示了其在...

Anthropic创始人发声:DeepSeek事件前所未有,美国要继续加强出口管制

美国AI巨头Anthropic的CEO Dario Amodei发表深度分析报告,强调DeepSeek的技术突破并未削弱美国对华芯片出口管制政策的必要性,反而增强了其紧迫性。他认为,...

OpenAI怀疑DeepSeek使用其模型,蒸馏R1

OpenAI指控国内大模型平台DeepSeek使用其模型训练竞争对手,违反服务条款。大模型蒸馏是行业普遍训练方法,将知识从复杂教师模型转移到简单学生模型。教师模...

DeepSeek独立发现o1核心思路,OpenAI首席研究官亲自证实!奥特曼被迫发声

DeeSeek R1的问世在硅谷引起了巨大震动,其技术突破得到了奥特曼和OpenAI首席研究官Mark Chen的认可。DeeSeek R1以其低成本和高性能的特点,挑战了硅谷对AI的...

这届春晚开始拼技术了!AI大模型绝美定格、机器人扭秧歌,云使用量达历年之最

阿里云首次作为春晚的云计算和AI独家服务商,在北京和杭州设立项目作战室,并在春晚现场安排工程师支持节目制作。技术支持包括云转播技术让全球华人云上看春...

“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?

英伟达近期面临新的竞争压力,源自DeepSeek-V3技术的最新进展。DeepSeek-V3通过深度优化,硬件效率显著超越Meta等竞争对手,主要得益于其从头开始重建的策略...

DeepSeek 的爆红,指出了当下 AI 最大困境

DeepSeek的横空出世在中国春节前给美国的应用商店、科技公司乃至股市带来了巨大冲击。这款应用不仅在中美两地App Store免费榜上登顶,还导致英伟达股价暴跌近...

阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏

阿里通义Qwen发布了新春节礼Qwen2.5-Max,这是一个超大规模的MoE模型,经过超过20万亿token的预训练数据和SFT+RLHF后训练方案的训练。在多个基准测试中,Qwen...
1 16 17 18 19 20 477