INDIGO TALK / 对谈汗青 AI 影视与媒体的未来 - EP24
INDIGO TALK 第二十四期,邀请了 AI Talk 创始人汗青老师,聚焦 AI 生成视频与创作工具的最新趋势。汗青从自身经历出发,深入分析了 GPT-4o 等新兴工具如何彻底重塑内容创作流程。他认为,到 2025 年底,AI 已能生产高质量的商业视频内容,而创作者将因此面临两极分化 —— 顶尖人才受益,普通创作者则压力倍增。AI 会如何影响影视行业?未来的媒体又将如何演变?一起来听汗青老师畅聊 AI 与内容创作的无限可能。

音频播客
小宇宙播客 - Indigo Talk - EP24
邀请嘉宾
汗青(AI Talk 工作室 - 创始人)
Indigo(数字镜像博主 - 主持)
时间轴
- 01:02 汗青与 AI Talk 的介绍
- 07:06 大众对 AI 生成视频的看法
- 11:39 对 AIGC 创作工具的感受和选择
- 23:16 GPT-4o 的图像生成和对工作流的颠覆
- 32:45 2025 年底 AI 能制作课商业化的 MV 和 TVC 么
- 37:02 AI 会让创作者彻底分化的爆论
- 41:02 未来个人做独立电影的可能性
- 51:16 理想的 AI 生成工具是什么样的?
- 58:09 AGI 时代的媒体形态
对谈详细总结
以下总结基于对谈逐段内容整理,并按提问者给出的时间轴进行归纳。为便于阅读,特将主要观点分段罗列,并结合对谈双方的核心讨论,呈现一个较为完整的脉络。
汗青与 AI Talk 的介绍
背景与个人经历:
- 汗青曾在多家互联网公司(eBay、阿里、京东)从事产品、增长、业务相关工作,累计有 10 多年的互联网从业经验,同时也有较长时间的美术与艺术背景。
- 2022 年开始关注 AIGC,2023 年正式以工作室形式上线 “AITalk” 品牌,做了诸如「科比 & 奥尼尔对谈」以及「乔布斯 & 马斯克对谈」等系列虚拟 AI 人物访谈,在国内多个平台都积累了数千万量级播放、近百万粉丝的关注度。
- 创办 AITalk 的初衷,是想把自己一半的艺术背景和另一半的科技背景结合,通过原生的 AIGC 视频内容探索技术与艺术融合的新方向。
初步目标与发展:
- AITalk 工作室以“用 AI 做数位视频内容”为主要形态,重视文本脚本创作、视觉呈现和音频合成等多模态结合。
- 团队目前主要依赖自有产品经理/研发/设计资源,以及封装或二次开发的开源模型来制作 AI Talk 节目。
- AITalk 第一阶段以“名人对谈”形式吸引注意;后续也在探索更多具有原创价值、风格化的 IP 内容。
大众对 AI 生成视频的看法
普罗大众的反应与疑虑:
- 工作室在国内各大平台运营时,收到了大量用户留言与反馈。总体而言,仍有许多普通观众对 AI 生成内容存在怀疑、质疑甚至“电子僵尸”“恐怖谷”等负面评价。
- 怀疑焦点包括:AI 能否真正替代真人演员的自然表演?AI 生成作品是否“尊重创作”,会不会破坏艺术创作的传统秩序?对比真人仍有差距:如表情细节、台词节奏、情感塑造等,都被认为尚未与真人持平。
圈内与圈外差距:
- 科技或 AIGC 圈内人对 AI 内容通常持乐观态度,认为它是革命性的生产力提升;但普通用户更多是好奇、观望态度,还有相当一部分人表示“看不惯”或“没感觉”。
- 这种分化的原因是:大众和专业群体对于 AI 生成内容的接受门槛和标准并不一致,AI 技术在短时间内仍处于“早期认知与科普”阶段。
对 AIGC 创作工具的感受和选择
发展速度惊人:过去 24~30 个月,AIGC 工具迭代非常迅猛,从最早的文本、图像到视频、音频,甚至多模态交互都在快速演进。
分层使用:可把 AIGC 工具拆分为四大模块:
- 文本层:剧本、脚本、对话等(GPT 系列、Claude、Bard 等大模型)
- 视觉层:图像生成(Midjourney、Stable Diffusion、开源模型)
- 音频层:音乐生成(如 Suno)、TTS、配音合成等
- 互动层:涉及影视、游戏乃至未来交互式媒介(如多模态 3D 场景、VR/AR 交互)
多工具组合才是主流:当前尚无单一“全能”工具,通常需要把不同模型或平台按需求组合封装,才能实现完整的商业创作流程。
工具进化历程:
早期(2022 年初左右):
- 文字:GPT-3.5 前身版本、ChatGPT 雏形,用于脚本初创。
- 图像:Midjourney 早期版本、Stable Diffusion、DALL·E 等。
- 视频:Runway 最初版本(幻灯片式短片),D-ID(数字人生成)也早期崭露头角。
中期(2023 - 2024 上半年):
- ChatGPT-3.5/4、Claude、Midjourney V5 / V6、Stable Diffusion 开源生态更加成熟,国内也出现大量跟进工具(可灵、寂梦、海洛、Pica 等),视频方面以 So拉(S○ra)为标志,带来更稳定的视频风格生成。
- 音频层,Suno 等模型开始让 AI 编曲、音乐生成质量大幅提升。
近期(Deepfake-SOS、DeepSeek 及 GPT-4.0 多模态出现):OpenAI 推出 GPT-4、Vision 等多模态能力,带来“以嘴P图”新范式;可结合图像理解与生成,让工作流程彻底革新,国内外各路工具再次掀起大规模迭代。
GPT-4o 的图像生成和对工作流的颠覆
多模态特性:
- GPT-4/4.0 版本具备文字、图像等多模态输入输出能力,用户通过自然语言即可与模型对话,让它在内部想象空间中完成草图,再用 Diffusion 等扩散模型生成更高质量图像。
- 优点:大幅降低“提示词门槛”,普通用户只需像与人对话一样就能生成相对精美的图片或素材,真正实现“以嘴 P 图”。
- 局限:对专业性工作流:一次想要生成百张图精挑细选或要精准控制微调,GPT-4o 的纯聊天模式效率并不一定更高,还难以像专业开源工作流(如 ComfyUI + SD)那样深度定制。审美宽度:某些特定艺术风格或中文海报上需要严格的文字排版时,Midjourney、寂梦等定制化模型或许反而更贴合。
对创作流程的冲击:
- 大量中小型商业需求或一般场景,会更倾向 GPT-4o “一键式”轻量化流程。
- 专业创作者仍需多工具协同,实现更极致的审美和精准度。
- 模型分化已不可避免:不可能“一家独大”,而是多模型各有所长,创作者根据需求灵活调用。
2025 年底 AI 能制作可商业化的 MV 和 TVC 么
现有成果与潜力:
- 汗青工作室已有用 AI 原生方式制作的 MV《白色皮卡丘》等,播放量达 400万;尽管技术层面与顶级真人拍摄仍有差距,但已具备商业价值并能吸引相当量的观众。
- AI 在音乐合成、剧情创作、分镜绘制和后期合成等方面均能完成至少“60 分”及格线级别的作品。
发展判断:
- 2025 年底前:AI 制作的 MV/TVC/广告等,完全有可能达到“让大多数受众可接受”的 75 分商用水准。
- 尤其是中低端内容需求(或预算有限、时效很急的项目)会更快切换到 AI 生成;真正顶级大片和极精美广告,短期内依然依靠真人团队 + 高端视效,但也会越来越多地混用 AI 加速工作流程。
AI 会让创作者彻底分化的爆论
创作者分化:结合保罗·格雷厄姆、米哈游创始人,以及李安导演的观点:
- 顶部极少数精英或拥有独特想法、极高艺术与技术实力的人,AI 让他们的创意更具生产力;
- 底部广大素人也能借助 AI 工具较低门槛去表达想法,玩出一些有趣内容;
- 中间水平——即过去仅凭中等技能维生的制作人,将受到 AI 的冲击最大。
这种两极分化被称为“平均的终结”:要么成为顶尖,要么就与 AI 同在一个大众娱乐层面,中端专业人群受影响会最大。
未来个人做独立电影的可能性
技术可行性从“表达”和“呈现”两个维度拆解:
- 表达:是否有足够好的故事、剧本构思;
- 呈现:AI 能否帮助完成影视级别的图像、音频、剪辑与后期特效。
目前 AI 在角色一致性(人物多镜头统一造型)、长镜头自然度、真实性等还有瓶颈,但这些问题往往属于 6~24 个月内可快速迭代解决的技术难点。
趋势判断:
- AI 必然让小团队甚至个人具备过去需要几十人才能完成的影视制作能力。
- 关键仍在“创意驱动”:“好故事+好表达”决定作品高度;技术门槛被大幅降低后,更多人可以进行创作试验,未来完全有条件出现个人或极小团队制作的独立长片。
理想的 AI 生成工具是什么样的?
多工具并存,难一统:不同模型擅长不同场景:如 Midjourney 强审美,Stable Diffusion 开源可定制,GPT-4/Claude 强文本生成等;未来依然会是多模型各司其职,而非一体化统治。对理想工具的需求:
- 能真正听懂人类创意:多模态、自然语言+UI+示例结合,让人能用更人性化方式表达需求。
- 贴合自然创作过程:像影视或游戏开发,通常需要角色资产、场景资产、世界观、分镜脚本等一整套“创作思维”落地;能否在同一平台内管理或跨平台通用(如一种“通用文件格式”)?
- 强大的迭代与可控:不仅要能一键生成,还得允许微调、修饰、局部修改并保持角色或场景的持续一致性。
目前所有大平台都只是局部做得好,尚未看到一个覆盖完整工作流、完美贴合创作习惯的“一站式”工具,且很可能也不存在“唯一最优解”。
AGI 时代的媒体形态
新增分发渠道的缺失与展望:
- 过去每次生产力革命(印刷、广播、电视、互联网)都带来新的“分发革命”。但眼下 AI 迅猛发展,却尚未出现颠覆式的新分发渠道,大多仍在短视频、社区平台等“旧渠道”展开内容竞争。
- 风格生命周期加速:像 GPT-4o 的吉卜力风格爆火,人人都能迅速生成,使得原本稀缺的手绘感瞬间“泛滥”,导致美术风格快速“审美疲劳”。未来风格变化和迭代速度会远超以往。
游戏与影视的融合:
- AI 具备“交互 + 即时生成”潜力,使得未来极可能出现“每个人看到的画面或剧情都不相同”的个性化/沉浸式互动媒体。
- 游戏、电影、动漫、AR/VR 进一步混合,观众可以实时影响剧情走向,打破传统线性叙事。
- 媒体新形态或将结合脑机接口、Vision Pro 这类可穿戴设备,走向无缝化、交互化、超沉浸式的“AI 超媒体”。
大结论:
- AIGC 时代,真正的竞争与机遇会在「增量的全新内容形态」上爆发,而不仅仅是对传统影视或图文的降本增效。
- 越来越多的个人工作室、小型团队,会借助 AI 完成从零到一的商业创作;同时大型工业级项目也会融入 AI,但在巅峰品质上仍保持相对优势。
- 无论怎样,内容创作者若能抓住“新媒介 + 新工具”的交汇点,就能在这一轮风口下找到属于自己的定位或爆发点。
结语
本次对谈涉及从 AI 视频的早期应用、用户反馈、工具生态,到未来数年 AI 能力的冲击,以及 AGI 时代全新媒体形态的前瞻。双方一致认为:技术门槛会继续被压低,创作将更广泛地普及,但也会带来创作者的两极分化。同时,只有真正有“核心创意”或“深度叙事能力”的个人与团队,才能在高价值内容赛道保持竞争力。AI 时代的新媒体,既可能全面渗透到现有分发渠道,也可能催生新的内容形态或交互方式,创造出颠覆式的观影、玩乐、阅读乃至体感体验。