大模型

大模型训练开销还能更小！微软推出首个FP4训练框架，训练效果与BF16相当

微软研究院最近推出了首个FP4精度的大模型训练框架，这一技术能够在保持与FP8和BF16相当的训练效果的同时，显著减少所需的存储和计算资源。该框架支持高达130...

AIGC动态

2周前

DeepSeek应用在全球范围内引起广泛关注后，意大利政府以数据安全为由，将其从Appstore和谷歌商店下架，理由是DeepSeek服务器设在中国，可能导致意大利用户数...

AIGC动态

2周前

在农历蛇年春节之际，DesignCon大会在美国加州举行，聚焦电子设计、高速通信和系统设计。芯和半导体连续第12年参展，从一个小展位发展到中央场馆，展示了其在...

AIGC动态

2周前

美国AI巨头Anthropic的CEO Dario Amodei发表深度分析报告，强调DeepSeek的技术突破并未削弱美国对华芯片出口管制政策的必要性，反而增强了其紧迫性。他认为，...

AIGC动态

2周前

OpenAI指控国内大模型平台DeepSeek使用其模型训练竞争对手，违反服务条款。大模型蒸馏是行业普遍训练方法，将知识从复杂教师模型转移到简单学生模型。教师模...

AIGC动态

2周前

DeeSeek R1的问世在硅谷引起了巨大震动，其技术突破得到了奥特曼和OpenAI首席研究官Mark Chen的认可。DeeSeek R1以其低成本和高性能的特点，挑战了硅谷对AI的...

AIGC动态

2周前

阿里云首次作为春晚的云计算和AI独家服务商，在北京和杭州设立项目作战室，并在春晚现场安排工程师支持节目制作。技术支持包括云转播技术让全球华人云上看春...

AIGC动态

2周前

英伟达近期面临新的竞争压力，源自DeepSeek-V3技术的最新进展。DeepSeek-V3通过深度优化，硬件效率显著超越Meta等竞争对手，主要得益于其从头开始重建的策略...

AIGC动态

2周前

DeepSeek的横空出世在中国春节前给美国的应用商店、科技公司乃至股市带来了巨大冲击。这款应用不仅在中美两地App Store免费榜上登顶，还导致英伟达股价暴跌近...

AIGC动态

2周前

阿里通义Qwen发布了新春节礼Qwen2.5-Max，这是一个超大规模的MoE模型，经过超过20万亿token的预训练数据和SFT+RLHF后训练方案的训练。在多个基准测试中，Qwen...

AIGC动态

2周前