大模型
LLM,VLM,模型
大模型训练开销还能更小!微软推出首个FP4训练框架,训练效果与BF16相当
微软研究院最近推出了首个FP4精度的大模型训练框架,这一技术能够在保持与FP8和BF16相当的训练效果的同时,显著减少所需的存储和计算资源。该框架支持高达130...
DeepSeek一夜之间,成了美国的众矢之的。
DeepSeek应用在全球范围内引起广泛关注后,意大利政府以数据安全为由,将其从Appstore和谷歌商店下架,理由是DeepSeek服务器设在中国,可能导致意大利用户数...
新春伊始,国产EDA从美国传回喜讯
在农历蛇年春节之际,DesignCon大会在美国加州举行,聚焦电子设计、高速通信和系统设计。芯和半导体连续第12年参展,从一个小展位发展到中央场馆,展示了其在...
Anthropic创始人发声:DeepSeek事件前所未有,美国要继续加强出口管制
美国AI巨头Anthropic的CEO Dario Amodei发表深度分析报告,强调DeepSeek的技术突破并未削弱美国对华芯片出口管制政策的必要性,反而增强了其紧迫性。他认为,...
OpenAI怀疑DeepSeek使用其模型,蒸馏R1
OpenAI指控国内大模型平台DeepSeek使用其模型训练竞争对手,违反服务条款。大模型蒸馏是行业普遍训练方法,将知识从复杂教师模型转移到简单学生模型。教师模...
DeepSeek独立发现o1核心思路,OpenAI首席研究官亲自证实!奥特曼被迫发声
DeeSeek R1的问世在硅谷引起了巨大震动,其技术突破得到了奥特曼和OpenAI首席研究官Mark Chen的认可。DeeSeek R1以其低成本和高性能的特点,挑战了硅谷对AI的...
这届春晚开始拼技术了!AI大模型绝美定格、机器人扭秧歌,云使用量达历年之最
阿里云首次作为春晚的云计算和AI独家服务商,在北京和杭州设立项目作战室,并在春晚现场安排工程师支持节目制作。技术支持包括云转播技术让全球华人云上看春...
“DeepSeek甚至绕过了CUDA”,论文细节再引热议,工程师灵魂提问:英伟达护城河还在吗?
英伟达近期面临新的竞争压力,源自DeepSeek-V3技术的最新进展。DeepSeek-V3通过深度优化,硬件效率显著超越Meta等竞争对手,主要得益于其从头开始重建的策略...
DeepSeek 的爆红,指出了当下 AI 最大困境
DeepSeek的横空出世在中国春节前给美国的应用商店、科技公司乃至股市带来了巨大冲击。这款应用不仅在中美两地App Store免费榜上登顶,还导致英伟达股价暴跌近...
阿里除夕发布Qwen2.5-Max反超DeepSeek V3,一句话开发小游戏
阿里通义Qwen发布了新春节礼Qwen2.5-Max,这是一个超大规模的MoE模型,经过超过20万亿token的预训练数据和SFT+RLHF后训练方案的训练。在多个基准测试中,Qwen...