出品 | 网易科技态度 AGI 栏目
对话 | 丁广胜、杨霞清
作者 | 袁宁
在 AI 的牌桌上,大厂们比拼算力与生态,小厂们比拼轻盈和速度,唯有“中厂”——夹在资源劣势和转身迟缓之间,处境尴尬。
昆仑万维将自身在 AI 浪潮中的位置看得更为清晰:不是守成者,而是挑战者;不是已经上船的人,而是正要抢票的那批人。
要么转得快,要么死得慢。昆仑万维选了前者。
这家成立于 2008 年,上市在 2015 年,靠游戏起家的公司,17 年里先后跨过游戏、浏览器、社交、搜索、AIGC,业务覆盖全球 100 多个国家和地区,全球月活跃用户接近 4 亿,踩在每个产业风口,在巨头脚下守住自己的地盘,灵活地活了下来。
2023 年,昆仑万维 All in AI,发布自研大模型“天工 1.0”,2024 年接连推出 AI 音乐生成工具 Mureka 和 AI 短剧平台 SkyReels,主动走上了一条确定性更高的路。目前其 AI 业务涉及 AI 大模型、AI 搜索、AI 游戏、AI 音乐、AI 社交、AI 短剧。2025 年第一季度,营业收入 17.6 亿元,同比增长 46%,海外收入占比达 94%。
昆仑万维董事长兼 CEO 方汉用一句话向《网易科技态度 AGI》诠释了他们的选择:“我们还是更愿意拥抱变化,因为你不拥抱变化,就是等死。”
而更具体的方向选择,方汉则向《网易科技态度 AGI》算了一笔账:中国一年目前约产 1 万部短剧,平均每部制作成本高达 100 万元,意味着年产值规模为 100 亿人民币。但在 AI 加持下,制作成本有望降至“每部 1 万元”以下,三年内年产量提升至百万部,“成本仍是 100 亿,但体量扩大 100 倍”。
音乐也是同理。在过去影视或游戏中,音乐预算大多约占5%。而现在,定制音乐可以低到几毛钱一个 token,不仅能大规模应用到影视游戏,还可进入智能座舱、个性化播客等更多新场景,满足长尾需求。“制作门槛的降低,意味着赛道会以几十倍、几百倍的速度膨胀。”
在方汉眼里,“中厂”不是劣势。经历互联网、移动互联网、AI 三波浪潮后,他把行业格局变化,类比于一场“抢椅子”的游戏——在 PC 互联网时代,王座空空如也;到了移动互联网时代,留下的椅子已所剩不多。
而在 AI 时代,真正的“王位”则可能只有一个,但“下面的位置”则机会四散。“对中厂来说,这反而是一个更好的时代。”方汉说道。
01 十万变三毛,AI 正在改写内容行业的成本线
“内容行业的创作门槛,正在被 AI 抹平。”方汉告诉《网易科技态度 AGI》,在 AI 内容浪潮全面铺展的当下,昆仑万维正在“音乐”和“短剧”两条赛道上,展开 AIGC 领域的产业级押注。
尽管音乐和短剧分别代表着两个看似迥异的场景,但从底层技术演进逻辑到落地市场的选择标准,却可以看出昆仑万维的打法异常一致:
先在成本敏感、质量容忍度高的应用场景落地,不追求颠覆内容分发体系,而是要通过底层技术降低创作成本,让“创作权”变得更加普惠。
音乐这条线,昆仑万维着力于推理优化。今年 3 月 26 日,昆仑万维正式发布全球首款音乐推理模型 Mureka O1。
区别于传统“一次性生成完再选”的方式,昆仑万维研发的新模型会在推理过程中自我评估并“撤回不满意的结果”,这种类似 OpenAI O1、DeepSeek R1 在文本上的策略被迁移到了旋律生成上,带来的是“最终生成音乐的效果有巨大幅度的提高”。
昆仑万维 AI 音乐生成工具 Mureka 使用界面,来源:网站截图
而在技术路径上,他们从符号化生成、到 Diffusion、再到 Diffusion-in-Transformer(DIT),如今已进入“DIT+COT”阶段,不断进化的架构正在向“低成本但专业可用”的生产能力逼近。
这些优化不仅提升了音乐生成的上限,也极大拉低了音乐制作的边际成本。方汉告诉《网易科技态度 AGI》,过去游戏行业定制一首音乐常常需投入数万至百万,如今使用昆仑万维的 AI 工具,生成一首商用级别的 BGM 每 token 只需几毛钱。相较以往中小厂商花重金外包的水准,AI 生成版本已具备相当替代性。
昆仑万维 AI 音乐生成工具 Mureka 定价,来源:网站截图
更重要的是,低成本解锁了音乐的新应用场景:汽车企业为每辆新能源车定制“开门声”,短视频内容创作者为每条视频快速匹配旋律,甚至素人K歌用户用 AI 帮自己创作“第一首原创歌”。
方汉表示,昆仑万维的目标并不在于打破音乐分发的渠道垄断——那仍掌握在网易云、QQ 音乐等平台手中——而是在于把音乐“生产力”推向更广泛的底层群体。“只要你降低了制作门槛和成本,这个行业的规模就会膨胀几十倍、几百倍。”
Mureka 自上线以来,在海内外获得了非常好的市场反响。根据第三方数据显示,Mureka 2025 年 3 月全球访问量达 333 万,环比增长 86.5%,增速位列全球 AI 音乐品类第一。截止 2025 年 3 月底,AI 音乐年化流水收入 ARR 达到约1,200 万美金(月流水收入约 100 万美金)。
02 AI 内容生成不是替代创作者,而是放大创作供给
而在短剧赛道,昆仑万维从一开始就盯准了视频生成的第一落地场景。“一部短剧人工拍要一百万到两百万,我们生成剧的成本几乎可以忽略。”
方汉认为,视频生成技术落地的最大障碍在于长度和质量,短剧刚好成为最佳切口:一方面内容时长短、观众容忍度高,另一方面制作流程标准化程度高,更适合工程化接入。
昆仑万维在 AI 短剧上动作迅速。2024 年 8 月,推出全球首个集成视频大模型与 3D 大模型的 AI 短剧创作平台 SkyReels,更以低门槛、更高效率赋能短视频内容创作;半年后,开源了中国首个面向 AI 短剧创作的视频生成模型 SkyReels-V1 和首个 SOTA(当前最佳水平)级别的表情动作可控算法 SkyReels-A1。开源两周,SkyReels-V1 在 Hugging Face 的下载量已接近 3 万次,在 Github 收获逾千星的点赞,成功撬动了短视频领域的需求。
昆仑万维走的是“重技术+重工程”的路线。从数据源起步,方汉向《网易科技态度 AGI》透露“我们不拍素人,我们拍的是北电、中戏的学生”,这强调的是专业表演动作的微表情和身体语言,这套“演员数据”的积累成为生成模型的独有护城河。
在算法上,他们将视频生成与 3D 物理引擎深度融合,“我们每生成一个视频,都会先构造一个 3D 世界来检验物理合理性。虽然它很丑,不是给用户看的,但它能告诉你‘这个球该往下掉’,‘这辆车该往上炸’。”
不久前,4 月 21 日,SkyReels 再度发布并开源 V2 版本——这是全球首个使用扩散强迫(Diffusion-forcing)框架的无限时长电影生成模型,SkyReels-V2 的推出标志着视频生成技术迈入了一个新的阶段,AI 生成无限时长、影视大片级别的高质量视频成为可能。
昆仑万维 AI 短剧工具 SkyReels 使用界面,来源:网站截图
方汉告诉《网易科技态度 AGI》,整个短剧生成流程已高度工业化。小说转剧本、剧本转分镜、分镜转视频、镜头脚本生成,昆仑万维将这条生产链条打通,并训练专用模型来替代 GPT-4 等通用 API 的调用。
“我们是自己训练的专门模型,只干这一件事,比你接个通用大模型要好得多。”最终形成的是一整套可落地的生产工具链,不只是创作工具,而是一整条内容工厂流水线。
方汉认为,AI 内容生成不是替代创作者,而是放大创作供给。不论音乐还是短剧,昆仑万维想做的都是“让创作像拍短视频一样简单”。“以前一个县城只有几家拍摄店,现在有了手机人人能拍。和这个逻辑一样,我们做的事情一样,就是把内容制作门槛打下去。”
最终,这条路径通向的,是内容产业结构的彻底改写:“现在拍电影的看不起拍电视剧的,电视剧看不起网剧,网剧看不起短剧——但你会发现,短剧的量是最大的,创作者也是最多的。这个行业一定会重塑,只是现在没人知道它会重生成什么样。”
“视频的核心还是故事,未来只要会讲故事,人人都能借助 AI 技术当导演、表达自己”。方汉依从多年的游戏、移动互联网行业经验作出了断言。
03 兴奋多于焦虑,中厂能吃大厂吃不了的苦
“我们是没吃到饼的人,对我们来说,一定是兴奋居多。”方汉直言不讳。他将中厂在 AI 浪潮中的位置看得极为清晰:不是守成者,而是挑战者;不是已经上船的人,而是正要抢票的那批人。
“要说焦虑,那是大厂才会焦虑。他们担心自己拿不到船票,被新玩家顶下去。中厂和小厂没啥可焦虑的——因为大家都很穷。”方汉笑言。
“我经历了互联网、移动互联网和 AI 三波浪潮,感觉是,留给后来者的‘王位’越来越少。”他举例说,互联网时代机会最多,因为“传统行业看不懂新东西”;移动互联网时代,中国能跑出来的,也就字节、滴滴、美团那么几家——大厂已经在场。而到 AI 这一波,“你会发现所有移动互联网时代的巨头全都进来了”,留给新王者的位置,可能更少。但他话锋一转:
“没关系,底下的位置多了去了。王位少了,但岗位多了,这是所有没赚到钱的人、没吃到饼的人,最好的机会。”
方汉认为,中厂最大的机会来自聚焦和穿透。“你只要在一个赛道做到垂类最强,大厂也打不过你。”在他看来,大厂虽然体量大,但每个赛道分摊下去,真正具备“碾压级”能力的并不多。
而相比之下,中厂只要在垂直领域做到极致,就有机会打穿。他总结说:“中厂不是啥都做,而是把一件事做到极致,后面的护城河就有了。”
“你别看大厂体量大,但你真让他们去下沉市场做苦活累活,他们吃不了苦。”而这,恰恰是中厂的机会窗口。
对于外界质疑昆仑万维是否“资源足够、能力足够”做基础模型,方汉的回答很直接:“其实还好。”
他的核心观点是:“基础模型这事儿不是拼算法工程师的‘数量’,是拼‘素质’。”昆仑万维之所以能打音乐模型、视频模型,是因为“我们有基础的算力,有自己训练大模型的工程能力”。但同时,相对于小型初创企业来说,“你没有算力,只能租卡,根本起不来。”
方汉强调,现在是“技术驱动产品”的时代,而不是“产品驱动技术”。如果你没有基础模型能力,“你前端再花哨,也无法提供用户真正想要的体验。”
对于昆仑万维来说,AI 不是一场热闹的流量战,而是一场关于“技术极限”与“工程落地”双重突破的持久战。
“我们三年内要解决的主要问题其实很清晰。”方汉一口气列出三点:一是模型能力,要能向一次化逼近;二是推理成本,要不断往下打;三是工程完善度,把好模型包成好产品。
他没有回避其中的艰难:“最难的肯定是模型能力,其次是推理成本,最后是工程完善度。但这三者缺一不可,缺了任何一个,结果都出不来。”
据昆仑万维最新财报披露,其 2023 年通过增资方式控股 AI 算力芯片企业——北京艾捷科芯科技有限公司整体研发进度已经过半,并开始向实现量产迈进。在“算力基础设施—大模型算法—AI 应用”全产业链布局层面,昆仑万维比我们想象得要布局得可能更深远。
在他看来,用户真正关心的产品体验,其实都落在这三条路径的交汇点上。“你模型再好,成本再低,如果软件工程跟不上,用户一样用不起来。”他说,“最后拼的,还是工程团队能不能把这个东西做得顺手、用得舒服、可复用。”
这不是“看谁吹得响”,而是“看谁磨得深”。方汉表示,中厂不靠热闹赢,也不靠背景赢,只靠一件事:在被忽视的战场上,活得久、磨得深。