
文章摘要
ChatGPT 新推出的 AI 图像生成功能在短时间内引发了广泛关注,尤其是在社交媒体上,用户通过该功能生成了大量以吉卜力风格为主的图像,甚至吸引了包括埃隆·马斯克和 OpenAI 首席执行官萨姆·奥尔特曼在内的名人参与。这一功能的火爆导致 OpenAI 的 GPU 资源面临巨大压力,奥尔特曼表示将很快对免费用户的生成次数进行限制,每天最多生成三张图像。
GPT-4o 的图像生成功能被认为是过去半年中最具价值的创新之一,尤其是在对话式图像生成方面表现出色。与传统的图像生成模型如 Stable Diffusion(SD)相比,GPT-4o 的关键优势在于其自回归框架(Autoregressive Model, AR),这使得它能够更自然地处理用户输入的简洁指令,并生成符合预期的图像。传统的扩散模型在处理文本到图像的生成过程中,往往会出现信息损失,而 GPT-4o 通过端到端的生成方式,避免了这一问题,实现了更精准的图文交互。
尽管 GPT-4o 在生成质量上并未显著超越扩散模型,但其交互方式的创新性为未来多模态大模型的发展提供了新的方向。李岩指出,GPT-4o 的成功在于其强大的大语言模型基础,使其能够理解用户简单指令背后的复杂信息,并生成符合预期的图像。此外,GPT-4o 还支持多轮条件控制,能够根据上下文生成图像,这在传统的单轮操作模型中是无法实现的。
然而,GPT-4o 的推出也对现有的图像生成工具和创业公司带来了冲击。许多开发者表示,他们之前学习的图像生成工具和工作流(如 comfyUI)在 GPT-4o 面前显得过时。尽管 GPT-4o 在轻娱乐场景中表现出色,但在高要求的商业化场景中,仍然需要依赖传统工具进行精细化处理。李岩认为,GPT-4o 的推出可能会对 Prompt 工程产生致命打击,因为其强大的自然语言理解能力使得用户无需再通过复杂的 Prompt 来生成图像。
与此同时,Midjourney 等竞争对手对 GPT-4o 的评价并不乐观,认为其图像生成速度慢、效果差,并质疑 OpenAI 的动机。尽管如此,GPT-4o 的推出无疑加速了 AI 图像生成领域的竞争,并推动了大模型在应用层的进一步普及。
大模型的发展正在逐步瓦解现有的产品逻辑和形态,尤其是在低门槛的使用形式下,许多传统工具和产品可能会被大模型的能力所取代。李岩建议,从业者应明确自身业务需求,并在工作中同时关注技术发展和行业变化,以避免被大模型所“吞噬”。未来,大模型将继续推动技术平权,使得更多人能够公平地使用 AI 技术,同时也将深刻影响各行业的组织形态和人员能力结构。
原文和模型
【原文链接】 阅读原文 [ 3855字 | 16分钟 ]
【原文作者】 AI前线
【摘要模型】 deepseek/deepseek-v3/community
【摘要评分】 ★★★★★