■ AIGC视频生成领域吸引国内外大厂纷纷入局。2024年2月OpenAI发布Sora成为视频生成模型的标志性突破,随后各家以DiT为主流架构的AIGC视频应用纷纷发布。从当前AIGC视频产品效果来看,C端应用的呈现效果相对不高,普遍存在动作不连续、画面扭曲的情况,但是B端AIGC内容品质已经较高,但实际操作上还需借助“人机共创”。
■ DiT架构具有较好的扩展性和构图品质,成为当前AIGC视频的主流架构。在Sora发布之前,主要依赖生成对抗网络架构(GAN)和扩散模型(Diffusion),但前者在视频等长序列生成上表现不佳,后者通过逐步添加和去除噪声来快速生成高质量图像,相对其他模式有压倒性优势。直至Sora采用扩散模型(Diffusion Model)与Transformer结合的DiT架构,该架构不仅在生成质量上保持了扩散模型的长处,更是具有了长视频的生成能力,因此成为了后续几乎所有AIGC视频模型的主流选择。但此架构在复杂运动和物理模拟方面仍需提升,如在空间分层、运动模块、视频预训练等方向进行迭代优化。
■ AIGC视频生成正推动内容生产从“人力密集模式”到“AI辅助\主导”转变。在影视领域,AI已渗透剧本生成、分镜设计(Midjourney秒级生成)、虚拟拍摄、特效后置等全流程,使《潜入梦海》等作品以万元级成本实现传统百万元拍摄效果。产业格局上,AI应用成为新入口。字节跳动等巨头通过“云基础设施+大模型+数据飞轮+C端\B端应用”的全AI生态布局争夺话语权。有别于互联网对传媒的变革,产生剧烈的马太效应,AIGC视频极大的降低了内容生产成本,传媒产业竞争核心将从中游环节的“制作能力”和下游环节的“渠道能力”转向上游环节的“IP创意运营”和“AI视频模型能力”。
■ 鉴于AIGC视频生成领域仍处于未商业化或商业化早期,可按大模型开发能力、垂直应用技术成熟度及商业模式进展等方面给予关注和跟进。风险方面,需关注模型技术的迭代,如DiT架构优化、物理模拟突破等进展;关注可能遭受冲击与替代环节,如实拍布景资产、特效团队等。
正文
2024年Sora的发布成为视频生成领域的标志性突破,推动传媒内容生产进入全新时代。本报告系统梳理了AIGC视频的技术演进路径、产业变革影响及商业化发展方向。通过对国内外主流AIGC视频应用的全面盘点与性能评估,深入解析DiT架构的技术突破与现存挑战,并借鉴互联网技术对传媒产业的改造历程,探讨AIGC如何重塑从PGC、UGC到AIGC的内容生产范式。
当前AIGC视频在影视辅助制作中的应用已显著降低人力成本和时间投入。可以预见,随着AIGC视频大模型的持续进化,终将彻底改变传统影视工业的“人力密集型”生产模式。当内容生产边际成本无限趋近于零时,传媒产业价值链也将迎来重构,竞争核心将从中游环节的“制作能力”和下游环节的“渠道能力”转向上游环节的“IP创意运营”和“AI视频模型能力”。
概览:AIGC视频将是最快商业化的领域之一,2024年取得大模型的标志性突破
1.1 全球主要应用:海外先发、国内大厂加快入局
目前,全球主要的AIGC视频生成应用多由国内外头部大厂或AI初创型公司发布,国外以OpenAI Sora、Runway Gen-3、Meta,国内以快手的可灵AI、阿里的通义万相、智谱清影等为代表。
2024年2月OpenAI发布Sora成为标志性突破。根据Sora介绍,其可以生成长达60秒视频,远超此前主流模型Runway、Pika等仅支持4秒视频;其对物理世界的模拟能力和动态一致性也明显提升。Sora采用扩散模型(Diffusion Model)与Transformer结合的DiT架构。在此架构下视频生成模型展现出良好的扩展性——随着训练算力的增加,生成视频质量显著提升,表现为时长、动态一致性、物理世界模拟等均超过此前的技术【注释1】,使AIGC视频真正具备长叙事能力。此后,基于DiT架构的视频生成应用迎来爆发式增长,一系列国产AIGC视频应用可灵、即梦、通义万相等纷纷发布。
目前市场主流应用均采用此架构。仅Meta的Movie Gen模型选择Llama架构。目前各应用的生成效果还处于开发初期、不断优化的阶段,还需要综合考虑生成效果和成本之间平衡。根据AIGVBench评价标准,目前尚未有一款产品占据绝对优势。
1.2 产品与商业化:C端应用的呈现效果相对不高,B端AIGC内容品质较高但需“人机共创”
当前视频生成时长多处于60s以内,但在DiT架构下视频生成模型的扩展性是相对可预期的。从目前免费AIGC视频应用生成效果来看,仅达到C端试用水平;但从各大厂发布的宣传物料显示已能达到影视短剧级的内容效果,两者差异可能来自其背后算力资源、影视素材训练库、专业定制化调用工具等匹配级别的不同。
目前C端使用的AIGC视频工具还处于生成效果提升的初期阶段,特别是在精准理解和模拟物理世界是核心难题。现有应用生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。以某AIGC视频应用的生成效果为例:该应用自带文本扩写功能,输入“宋代摇滚风格音乐短片”后选择自动扩写。如果要相对把控生成视频的风格和要素,一般可先利用文生图生成目标风格的图片,再以此为基础生成视频。可看出生成视频在人物运动中,面部表情持续出现扭曲。
B端新闻视频内容已有较多应用,“人机共创”是目前相对主流的模式。新华社在2023年成立AIGC视频生产实验专班,从内容生成、应用路径以及开辟AIGC虚拟生成类特色栏目《AIGC古诗今画》等,实现每周生产AIGC(含AI编辑真实素材和AI生成虚拟内容)视频报道产品150-200条,总浏览量破5亿次。特别是2024年4月新华社播发首个AIGC音乐短片《AIGC MV:美债炸弹滴答响》,全流程运用人工智能技术实现作词、谱曲、文生图、图生视,24小时内海媒浏览量达174万,被多国媒体人和专家学者账号转发。由此看出,AIGC在新闻视频领域的内容生成和应用模式基本已探索成型。
影视视频内容领域,短剧内容已经有完全依靠AIGC生成的剧集,精品影视剧的生产中目前AIGC可以起到运镜分镜、特效渲染等辅助作用。在今年6月的第二十七届上海国际电影节,《潜入梦海》【注释2】是“AIGC单元”最佳创意奖作品。该AI短片时长仅8分钟、团队仅4人,不依赖传统影视制作的摄像机与片场,而是掌握20余种AI工具,调动关键词库、动态模型、开源换脸技术等方式,将想象具象成镜头,呈现出大巴车爆炸、异国场景等高预算大片级视觉效果。如果用传统实拍方式,成本至少百万元以上,但AI方式可控制在万元以内,且制作周期缩短至一周。
在专业剧集生产工具上,一些AIGC视听制作平台(如炫佳科技的Kino-AIGC视听制作平台)通过“智能帧流技术”自动调节画面精度,既能快速生成低分辨率草稿,又能无缝升级至4K超清;语音生成能力上,可实现中、英、泰等多国语言同步译制,并匹配原声韵律音色。
从目前主流应用情况来看,AIGC参与短剧制作主要用于中期的创作阶段,起到替换实际片场拍摄的作用,而前期的剧本策划和后期的剪辑处理,仍是需要复杂的人工来完成。
图3:新华社《AIGC MV:美债炸弹滴答响》2024.4
(本部分有删减,招商银行各部请登录“招银智库”查看原文)
资料来源:新华社
图4:上海国际电影节《潜入梦海》2025.6
(本部分有删减,招商银行各部请登录“招银智库”查看原文)
资料来源:上海国际电影节
AIGC视频是兼具商业化发展潜力和落地速度的领域之一。有别于其他行业中的AIGC生成,AIGC视频生成的商业化路径持续且清晰,从C端社交体验的秒级视频、到B端新闻广告的分钟级视频,以及未来扩展到小时级的精品影视视频,对应至AIGC技术产品发展的不同难度,均有可供变现的场景和方式。而全球影视市场规模(包括电影、电视、流媒体等)至少3000亿美元【注释3】,其中我国市场规模约300-400亿美元。这是AIGC视频技术完全成熟后的一大确定性应用市场,对当前AIGC视频技术的迭代发展起到稳定的牵引作用。因此我们认为,AIGC视频这种更加稳定、可预测的模式,将使其成为AIGC最快商业化的领域之一。
模型原理与进展:DiT架构展现出较好的扩展性和构图品质,但在复杂运动和物理模拟方面仍须提升
2.1 模型架构:DiT为主流架构,运动模块、视频预训练、影视化工具是模型优化方向
Diffsuion Transformer(DiT)架构是当前AIGC视频模型的主流选择。Transformer是基于注意力机制的新型神经网络架构,于2017年被提出,该架构的并行化处理使其能够充分利用图形处理单元(graphics processing unit , GPU)。并且该架构在设计层面上允许不断地堆叠编码器或解码器结构,使得整个架构具备更好的扩展性。Transformer架构的提出原本是为了解决自然语言处理中的长文本记忆缺陷,但其并行计算的模式,在图像生成领域也有很好的应用性。
在Transformer架构之前,自然语言处理和图像生成领域之间,没有太多的交叉重叠。自然语言处理领域,主要依赖循环神经网络(RNN)架构,通过串行计算模式使其具备文本短期记忆,后续又通过长短期记忆网络(long-short term memory , LSTM)用于长文本的生成任务。但受限于RNN的串行计算模式对长文本的处理仍旧局限,实践中往往经过几十到100个词后,该模型就开始偏离主题。为了解决这一问题,Transformer架构被提出,其并行计算模式对生成式模型的发展产生巨大促进。2018年后,一系列标志性的大语言模型开始涌现,如OpenAI的GPT-1(2018)、Google的BERT 模型(2019)。
在图片\视频生成领域,早期主要依赖生成对抗网络架构(GAN,2014年被提出),但其在视频等长序列生成上表现不佳。2021年,OpenAI发表《Diffusion Models Beat GANs on Image Synthesis》,证明扩散模型在图像生成质量上超越GAN;2022年谷歌的《Video Diffusion Models》使得扩散模型进入视频生成领域。Diffusion扩散模型的核心思想是通过逐步添加和去除噪声,实现从随机噪声到高质量数据的生成过程,其在图像、视频生成之类和速度上,对其他模式有压倒性优势。
2024年2月OpenAI发布Sora,采用扩散模型(Diffusion Model)与Transformer结合的DiT架构,使其不仅在生成质量上保持了扩散模型的长处,更是具有了长视频的生成能力,其可生成长达60秒视频,远超此前主流模型Runway、Pika等仅支持4秒视频。至此,DiT架构成为了AIGC视频模型的主流选择。
AIGC视频模型的本质是建模视频的时空连续性。基于上述DiT架构的AIGC视频模型在生成视频时长、高质量画质方面实现了突破,但在精准理解和模拟物理世界仍是核心难题。视频生成模型后续将继续在空间分层、运动模块、视频预训练等方向进行迭代优化。
空间分层:为了更精确高效的“模拟真实世界”,需要对视频生成的空间要素进行分层,区分视频画面的动态、静态、背景,动态中又可进一步区分多条动线,分类给予视频生成。这可以更高效的解决人物、背景等不连续的问题。
运动模块:现有应用生成的视频在大幅运动、物理复杂场景表现较差,容易生成肢体扭曲、违背物理定律的视频。通过引入专门设计的运动模块,专门处理视频中的时间维度信息(即帧与帧之间的运动变化),确保生成视频在时间上是连贯、自然的。运动模块在Transformer的注意力机制中加入时间轴,让模型能同时分析空间(单帧画面)和时间(多帧运动)信息。这有助于针对性解决传统AI视频生成的变形扭曲问题。甚至可以通过不断学习和训练,解决生成视频违背物理规律的难题。如,体操、杂技运动,一直被誉为AIGC视频的图灵时刻,当前此类运动视频的准确生成尚还无解。
视频预训练:通过视频数据拆分过滤,例如去除字幕等特定文本信息、确保展示出运动感、去除可能缺乏主题焦点的低质量,最终保留长度在3-10秒之间的单一主题片段用于模型训练。对运动学习,使用低质量的视频数据集,这些视频虽然质量不高,但能够提供足够的运动信息,确保生成的视频在运动上是连贯的。对外观学习,使用高质量的图像数据集,这些图像具有高分辨率和复杂的概念组合,有助于提升生成视频的视觉质量。
影视化工具:视频内容具有专有叙事技巧,如运镜、笔刷走位、分镜辅助等,也是AIGC视频应用要添加完善的功能。
2.2 文生\图生效果:文生视频创意度高、图生视频可控性高
从上一节AIGC视频模型DiT架构图可知,生成式视频分别可以通过文字和图片信息作为编码输入内容。从生成效果上,图生视频相对而言,对生成视频内容的可控性高,适合“二创”等有精准物象的扩展生成。文生视频的自由度比较大,纯文字生成往往内容容易有较多遗漏,更适合创意类如广告、艺术类的视频生成。
在本文1.2节我们选取了某C端视频生成应用,生成一段“宋代摇滚风格音乐短片”。以现有相关AIGC应用的生成水平来看,在实际精准物象、但又对物象风格有特定要求的情况下,可以通过文本扩写-文生图-图生视频的方式,生成此类视频。
如需设置特定音乐,还可选择Suno应用,其在音频和口型拟合的表现相对优秀。另外,还可使用一些精细控制方式,例如在文本扩写阶段,可多次尝试扩写,生成详细分镜描述;在文生视频阶段,可以对关键帧控制,每3秒设置一个图生视频锚点、设置首尾帧;还可使用运动笔刷等功能对运动轨迹进行控制。
2.3 各家产品性能:AIGC视频的感官质量不断突破,但精准理解、物理真实仍是核心难题
当前免费AIGC视频应用的实际使用中,定向生成的效果可控性整体不高,往往需要多个应用结合起来使用。这是由于各个应用目前展现的长处不同,有的具有扩写分镜功能,有的具有运动笔刷功能;有的在二次元风格上见长,有的在国风主题中表现较好。而在单个应用的使用时,往往也需要多次生成,类似 “抽卡”模式。普通用户需反复生成并筛选可用片段,个位数的生成次数能达到预期效果的话,就已经是比较优异的。而专业用户,如影视团队则可通过定制化API直接控制生成参数(如镜头运动、角色动作)。
下表是综合梳理了B站及知乎平台等AI博主整理的各类免费AIGC视频应用工具评测。各家产品应用的性能也在不断迭代中,对一些控制性功能如运动笔刷、运镜等都可以进行增加和完善。
在用户的使用限制和价格上,也在不断放开和降费。例如,OpenAI的视频生成工具 Sora,其在2024.2月发布时,但并未开放公测,仅对少数企业级用户付费使用;2024.12月其正式对多个国家用户开放,用户可在 OpenAI 官网上体验 Sora。同时,Sora 被包含在 ChatGPT Plus 和 ChatGPT Pro 的会员订阅方案中,用户无需额外付费。订阅 Plus 方案的用户可使用 Sora 生成最多 50 个分辨率达 720p、时长为 5 秒的高级视频, 而 Pro 方案能生成最多 500 个分辨率达 1080p、时长为 20 秒的高级视频。
AIGC将如何变革内容产业?从PGC、UGC到AIGC的内容创作降本平权
在思考上述问题时,希望不仅仅停留在AIGC技术对内容生产的改变层面,而是进一步推演在生产技术变革之下,未来传媒产业格局如何演变。AIGC作为划时代技术,其对各行各业变革的终局形态很难想象,因此推演其未来演变时,无可避免要拿它与本世纪以来的互联网技术作比较。而传媒产业恰恰是在互联网技术驱动下,变革颠覆最大的产业(没有之一),回顾和思考互联网技术对其的影响,或可得到一定借鉴和启发。
互联网技术发展对传媒内容产品升级、分发渠道的供需两端均产生颠覆影响,本质是信息传输能力与通讯设备的升级带来内容产品的迭代,而基于内容产品从图文逐渐向视频形态升级,带动了分发渠道的多样化和消费需求的爆发。但是从内容品质上来看,存在追求“流量为王”牺牲“专业度”的问题。互联网技术对影视内容的生产影响,仅仅是体现在效率优化和数字技术上,并没有改变20世纪以来的“剧本-分镜-拍摄-后期”传统生产模式的本质。
虽然当前AIGC在传媒内容端的应用仅处于初期水平,但是传媒内容领域兼具了ToC商业化应用变现快速与ToB专业化生产亟待变革两方面有利条件,或将推动AIGC在内容创作领域更为快速迭代。从前文1.2节所述的B端“人机共创”的AIGC视频案例来看,其可极大缩减人工的成本和创作时间,大大简化传统生产模式(如根据剧本自动生成分镜、后期制作时特效和背景AI生成等),可以预见AIGC将成为未来内容生产力变革的利剑。
3.1 对标互联网技术对传媒的变革:需求驱动,线上流量爆发带来渠道颠覆、内容形态迭代
3.1.1 当前格局:以短视频为代表的PUGC内容占据主导,长视频等PGC专业内容逐渐式微
回顾互联网技术对传媒行业的推动和变革,总体上是信息传输基础设施的升级带动需求端的内容渠道和产品的多元化,资讯、社交、文娱内容的丰富度、获取的便捷度大大增加,同时内容形式也逐渐从图文向视频升级,且内容数量大大提升。传媒特别是互联网传媒正在持续扩大对用户注意力的吸引,然而这种吸引之下,是大众对内容品质越来越多的诟病。也就是说,过去二十年来互联网和移动互联网的快速发展,切实创造了更多传媒需求,推动内容形态和数量升级,但内容品质的升级相对滞后,反而由于需求爆发式增长导致供给以量以快取胜,内容产品整体质量下降。
内容形态:互联网3G/4G/5G技术的迭代升级,带来流量接入的迅速增长,互联网媒体内容也从文字、图片到视频进行着升级。随着用户使用流量的单位成本降低,媒体内容越来越丰富。视频等流媒体内容已成为移动互联网时代的重要内容。
分发渠道:与内容数量增长互为驱动,媒体渠道也在不断裂变和增长,线上渠道特别是流媒体已成为主流。结构上,线上媒体在2010年之前处于辅助地位,但随着移动互联网的兴起和深化,在微博\微信等移动社交媒体以及爱优腾等长视频平台出现后,到2015年线上媒体基本可以与线下媒体分庭抗礼。随着以字节系的短视频平台爆发式增长,其内容属性兼具了娱乐、社交、资讯功能,至此线上流媒体逐渐占据主流地位。
用户群体:随着产品和渠道数量的不断增长,用户群体呈现出更加细分的趋势。垂类社群和长尾需求逐渐得到满足,用户可以根据自身兴趣和需求,找到更为精准的内容和服务。这种细分化不仅提升了用户的体验,也为平台提供了更多的商业机会。
内容生产:在电视台、门户网站和在线视频阶段,PGC(Professional Generated Content,专业内容生产)是主要模式,PGC通过高质量的内容吸引了大量用户的注意力。然而,随着短视频的兴起,内容生产的门槛大大降低,UGC(User Generated Content,用户生成内容)迎来了爆发式增长。UGC凭借其高用户参与度和多样化的内容形式,为平台注入了新的活力。2019年后,短视频逐渐进入成熟期,内容创作进一步迭代至PUGC(Professional User Generated Content,专业用户生成内容)模式。PUGC兼具PGC的专业性和UGC的广泛参与性,凭借专业内容与热点营销,对长视频等传统PGC专业内容形成显著挤压,成为最主流的内容生产模式。
注:年份是按照传媒应用商业化兴起设定,并非运营商开始商业化的时间。运营商牌照发放时间分别为:2G(1995)\3G(2009)、4G(2013)、5G(2019)
3.1.2 驱动特征:互联网技术颠覆渠道格局,PGC及PUGC内容生产机构依附于互联网巨头
互联网技术对传媒行业的变革,本质上源于信息传输能力和通讯设施的升级,不仅催生了多元化的内容产品形态,更重塑了整个行业的传播逻辑。从文字、图片到短视频、直播,内容形式的演进始终与技术进步同步,而分发渠道也从传统的广电网络、纸质媒体转向了算法驱动的社交媒体和视频平台。这一变革的终局,是行业权力结构的根本性转移——传播中心从线下广电渠道让位于线上视频平台,内容生产的话语权从专业机构主导的PGC模式(以供定需)转向由用户和创作者共同参与的PUGC模式(流量为王)。这种转变不仅重构了内容生态,更深刻改变了传媒行业的商业逻辑和竞争规则。
更不能忽视的是,互联网技术的普及在推动行业变革的同时,也带来了前所未有的马太效应,这种现象的强度远超传统媒体时代。其根源在于互联网技术极大强化了人与人、人与物之间的连接效率,根据梅特卡夫定律,网络价值与用户数量的平方成正比。这种超线性增长特性使得头部平台能够迅速积累用户规模,形成近乎垄断的市场地位。在传媒领域,这种效应表现为流量和用户注意力的高度集中——少数几个超级平台(字节、腾讯等)掌控了绝大部分的内容分发渠道和用户时长,而传统媒体则逐渐边缘化。这种集中度不仅改变了内容传播的格局,更重塑了整个传媒产业的权力结构。
腾讯系依靠微信+QQ持续在3G\4G时代占据绝对优势,而字节系则凭借抖音头条等头部产品,以4G移动互联网下沉为契机实现快速追赶,两大巨头位列互联网时长的前两位。根据QuestMobile统计,截至2022年12月,腾讯系时长占比达33.6%,字节系时长占比达24.5%,快手系(10.2%)、 百度系(8%)和阿里系(6.2%)分别位列第3-5名。
互联网时代的媒体分发渠道集中度之所以远高于传统媒体时代,关键在于技术特性带来的规模效应和网络效应双重叠加。一方面,数字内容的边际成本趋近于零,使得头部平台能够以极低成本服务海量用户;另一方面,用户聚集产生的数据资产又进一步强化了平台的算法优势,形成难以打破的正向循环。这种“赢家通吃”的格局导致新兴媒体难以突围,即便拥有优质内容也难以获得对等的传播机会。在传统媒体时代,由于物理分发渠道的限制和地域性特征,市场尚能维持相对分散的竞争格局;而在互联网时代,技术特性天然倾向于集中化,这使得传媒行业的马太效应表现得尤为突出。
面对互联网技术带来的马太效应,传媒行业正在经历深刻的调整与重构。一方面,头部平台凭借流量优势和数据积累,不断向产业链上游延伸,通过投资、并购等方式巩固其市场地位;另一方面,专业内容机构不得不调整策略,或选择与平台深度绑定,或转向垂直细分领域寻求差异化生存空间。进而导致内容价值的评判标准发生根本性变化——从专业导向转向流量导向,从质量优先转向算法友好。内容创作存在追求“流量为王”而牺牲“专业度”的问题。
值得注意的是,随着监管的介入和新技术(如AI)的发展,过度集中的市场格局可能出现新的变数。与此同时,当前传媒行业面临的内容同质化、质量参差不齐等发展瓶颈,恰恰为AIGC(人工智能生成内容)技术提供了施展空间,或可通过重构内容创作的价值链条和生产方式,实现内容创作生产力的变革。
3.2 AIGC技术对传媒的变革:供给驱动,内容创作迎来“破壁”,视频垂直应用或成为新入口
AIGC对传媒行业的变革,本质是内容供给端的技术革命。与互联网技术驱动的需求端(包括渠道和产品类型)变革不同,其核心在于内容供给的生产力跃迁。如果说互联网技术通过降低信息传输成本、拓宽分发渠道,让内容消费需求爆发式增长,那么AIGC则通过重构内容生产逻辑,让创作效率和产业格局发生根本性变化。其影响将不仅仅是改变内容生产模式,同样还会重塑传媒产业的话语权结构。
3.2.1 推论1:内容生产重塑,从“人力密集”到“AI辅助\主导”
传统影视制作中,从创意到成片需要经历剧本创作、分镜设计、实拍拍摄、后期制作等复杂环节,耗时长且成本高昂,影视内容生产长期一直处于高成本、长周期的“重工业”模式。传统影视制作高度依赖人力,不仅演员成本极高,亦是需要编剧、监制、后期、特效等专业人才,AIGC重塑影视制作各个环节,大幅减少人力投入和制作时间。同时也将同步重构影视产业的价值链:当内容生产边际成本趋近于零,竞争焦点将从“制作能力”转向“创意IP运营”。
剧本开发阶段:AI剧本生成器可基于关键词自动生成故事框架,将创意孵化周期从数月压缩至数天。还可实时检测情节漏洞,替代传统人工剧本评估环节。《谜题大师》是Netflix的一次实验性的动画短片,其利用AI技术生成400+剧情分支方案。AI在学习了40万小时的恐怖电影素材后自动生成剧本,并融合了大量无厘头的喜剧元素,全程均由AI生成剧本,整个故事进展的推动方式极其荒诞,反而产生出超乎寻常的无厘头喜剧效果。国内头部影视公司华策影视持续探索影视AI应用,其自研大模型“有风”已在内部电视剧、电影、短剧等团队使用,可将一部120万字的小说评估报告生成时长从5至7天缩短到15-30分钟,提高评估效率与精准度。
视觉分镜预生产:传统手绘分镜需数小时至数天,而AI可实现10秒内生成多版本分镜。如美国人工智能公司Midjourney(在AI绘图领域,Midjourney与Stable Diffusion被公认为两大龙头)支持文字快速生成摄影级画面,细节处理已达专业水准。
拍摄制作阶段:虚拟制片系统实现实时背景替换,还可用群演系统(基于AI动作生成)节省战争场景千万级成本。
3.2.2 推论2:产业格局演变,AI应用或成为平台竞争新入口
尽管当前AIGC完全替代传媒产业的人工投入还不现实,但是已经可以在一些低端需求如背景搭建、群演上降低了对人员的依赖,同时还可大大降低内容创作的入门门槛。如文生图(如MidJourney)、文生视频(如Sora)、AI音乐生成(如Suno)等垂直工具,已经成为用户创作的新入口,挑战传统内容平台的主导地位。
另一方面,头部互联网平台正在加速入局AIGC模型及应用,并且更加注重云基础设施+大模型+数据飞轮+C端\B端应用的全AI生态布局。短期AI模型应用的技术领先性、功能性,仍是平台竞争的重点。
例如,字节跳动正以豆包大模型为核心,构建覆盖AI基础设施、多模态能力、智能终端、行业应用的全栈AI生态,形成从底层算力到上层应用的完整闭环。算法环节上,以豆包大模型为核心,涵盖图像、视频、音频和开发等多个领域,并且可为开发者提供成熟完整的工具链。应用环节上,字节在AI应用的战略较为清晰,一是对标优质竞品推出C端应用产品,覆盖聊天助手、情感陪伴、教育等全领域,二是B端Agent、AI云服务配套大模型应用的企业级布局,三是利用产品矩阵的流量和商务团队,助力AI应用的推广。
3.2.3 推论3:应用商业化,短期落地看C端,长期壁垒看B端
ToC端AIGC应用是未来一两年的主要落地领域,ToB端应用短期以辅助降本为主,长期随着技术成熟的提升,可能成为内容制作的主导力量。预计未来几年,AIGC的 C端应用将快速放量、圈揽用户,而B端深度嵌入内容生产流程也将随着技术快速升级而形成成熟商业模式。
在C端市场,低门槛、趣味性应用(如AI绘画、短视频生成)快速吸引用户。如视频生成大模型快手“可灵AI”,自2024年6月上线至今,月活用户数量增长25倍。截至目前,可灵AI全球用户规模已突破2200万,累计生成1.68亿个视频及3.44亿张图片素材。短期看,C端应用还处于导流阶段,当下竞争聚焦于生成成本的持续下降、使用功能及效果的持续优化;中长期还需在用户留存和盈利模式等方向探索。
相比之下,B端市场的商业化更具长期价值。一方面,B端技术将大大缩减现有影视制作的成本,盈利模式清晰有效;另一方面,B端技术成熟度提升,又将反哺C端产品,如快手可灵AI从影视B端延伸至UGC创作,进一步加筑C端应用的壁垒。
结论及建议:关注大模型开发能力、垂直应用技术成熟度及商业模式进展
当前AIGC视频在影视辅助制作中的应用已可显著降低人力成本和时间投入。可以预见,随着AIGC视频大模型的持续进化,终将彻底改变传统影视工业的“人力密集型”生产模式。当内容生产边际成本无限趋近于零时,传媒产业价值链也将迎来重构,竞争核心将从中游环节的“制作能力”和下游环节的“渠道能力”转向上游环节的“IP创意运营”和“AI视频模型能力”。
从银行业务视角,鉴于AIGC视频生成领域仍处于未商业化或商业化早期,可按大模型开发能力、按垂直应用技术成熟度、按垂直应用商业模式等方面给予关注和跟进。
(本段有删减,招商银行各部请登录“招银智库”查看原文)
注释
1、在DiT架构之前,AIGC视频模型主要采用生成对抗网络GAN架构、Transformer自回归模型。
2、短片《潜入梦海》是上海国际电影节 “AIGC单元”最佳创意奖作品,其AI影像总监和分镜设计师刘璨闻,00后,曾就读于中央美术学院附中与温哥华电影学院,现供职于一家AI科技公司。
3、全球影视市场中,全球电影票房收入约400亿美元,电视OTT及流媒体的订阅收入约1000亿美元,影视相关广告收入>1000亿美元,另还包括周边衍生文娱市场等。
-END- ]article_adlist-->本期作者 ]article_adlist-->夏雪行业研究员xiaxue001@cmbchina.com
转载声明:
1、本报告为招商银行研究院已发布报告的公开版本,报告内容均为原创。
2、如需转载,请提前征得本公众号授权。转载时需要保留全文所有内容,请勿对本报告进行任何有悖原意的引用、删节和修改。
3、转载时请注明出处为“招商银行研究院(ID:zsyhyjy)”,并在“原文链接”中保留原始公众号文章链接。
4、授权方式:请参照文末方式联络招商银行研究院。
注意:未经招商银行事先授权,任何人不得以任何目的复制、发送或销售本报告。
招商银行版权所有,保留一切权利。
责任编辑|余然
蚂蚁配资-股市策略配资-配资股票开户-现货配资平台提示:文章来自网络,不代表本站观点。