GPT-4o “吉卜力”爆火，Prompt、SD 白学了？！大模型能力进化碾压一切

423 0 0

文章摘要

ChatGPT 新推出的 AI 图像生成功能在短时间内引发了广泛关注，尤其是在社交媒体上，用户通过该功能生成了大量以吉卜力风格为主的图像，甚至吸引了包括埃隆·马斯克和 OpenAI 首席执行官萨姆·奥尔特曼在内的名人参与。这一功能的火爆导致 OpenAI 的 GPU 资源面临巨大压力，奥尔特曼表示将很快对免费用户的生成次数进行限制，每天最多生成三张图像。

GPT-4o 的图像生成功能被认为是过去半年中最具价值的创新之一，尤其是在对话式图像生成方面表现出色。与传统的图像生成模型如 Stable Diffusion（SD）相比，GPT-4o 的关键优势在于其自回归框架（Autoregressive Model, AR），这使得它能够更自然地处理用户输入的简洁指令，并生成符合预期的图像。传统的扩散模型在处理文本到图像的生成过程中，往往会出现信息损失，而 GPT-4o 通过端到端的生成方式，避免了这一问题，实现了更精准的图文交互。

尽管 GPT-4o 在生成质量上并未显著超越扩散模型，但其交互方式的创新性为未来多模态大模型的发展提供了新的方向。李岩指出，GPT-4o 的成功在于其强大的大语言模型基础，使其能够理解用户简单指令背后的复杂信息，并生成符合预期的图像。此外，GPT-4o 还支持多轮条件控制，能够根据上下文生成图像，这在传统的单轮操作模型中是无法实现的。

然而，GPT-4o 的推出也对现有的图像生成工具和创业公司带来了冲击。许多开发者表示，他们之前学习的图像生成工具和工作流（如 comfyUI）在 GPT-4o 面前显得过时。尽管 GPT-4o 在轻娱乐场景中表现出色，但在高要求的商业化场景中，仍然需要依赖传统工具进行精细化处理。李岩认为，GPT-4o 的推出可能会对 Prompt 工程产生致命打击，因为其强大的自然语言理解能力使得用户无需再通过复杂的 Prompt 来生成图像。

与此同时，Midjourney 等竞争对手对 GPT-4o 的评价并不乐观，认为其图像生成速度慢、效果差，并质疑 OpenAI 的动机。尽管如此，GPT-4o 的推出无疑加速了 AI 图像生成领域的竞争，并推动了大模型在应用层的进一步普及。

大模型的发展正在逐步瓦解现有的产品逻辑和形态，尤其是在低门槛的使用形式下，许多传统工具和产品可能会被大模型的能力所取代。李岩建议，从业者应明确自身业务需求，并在工作中同时关注技术发展和行业变化，以避免被大模型所“吞噬”。未来，大模型将继续推动技术平权，使得更多人能够公平地使用 AI 技术，同时也将深刻影响各行业的组织形态和人员能力结构。