news 2026/6/30 3:40:54

Sand.ai曹越:每代模型押注非共识,视频模型是通往世界模型重要路径

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
Sand.ai曹越:每代模型押注非共识,视频模型是通往世界模型重要路径

曹越与Sand.ai的创业历程

“每一代模型,我们都在押注一个非共识。” Sand.ai创始人曹越不太关心自己站在共识的哪一边。Sand.ai是一家视频生成模型和产品公司,成立于2024年1月。在上一段创业“光年之外”结束后,曹越投入到Sand.ai的创业中,做视频生成模型。彼时,市场主流是Diffusion路线,几乎没人认为曹越选择的自回归路线是正解。

模型发展与创新

2025年初,发布基于自回归架构训练的模型Magi - 1后,曹越意识到“只有画面是不够的”,团队开始探索音画同出,Sand.ai成为除Google VEO 3之外最早拿出音画同出模型的团队,Magi - 1在Google DeepMind的Physics IQ benchmark上长期保持第一。

2025年11月,曹越决定带着团队将模型架构从Dense转向MoE,“那个时间点,国内应该几乎没有什么视频公司在全力推进这件事”。发布音画同出模型Gaga - 1之后发现,在Dense架构下继续Scale Up,成本会直线上升,而MoE是突破视频模型成本、速度、效果不可能三角的答案。

2026年Q3,Sand.ai将发布新一代视频生成模型,采用MoE架构,兼顾高效推理与目前开源领域最大的参数规模,曹越有信心做到头部水准并开源。

融资情况

这家公司刚刚完成两轮合计超亿美元融资,投资方包括Look Capital、Lollapalooza Capital(王慧文家办)、九坤创投、经纬创投、和玉资本(MSA Capital)、创新工场、襄禾资本、源码资本、中科创星、洪泰基金、今日资本、华业天成、云晖资本、IDG、百度风投等一线机构联合投资,星涵资本担任本轮融资财务顾问。

底层思考与对世界模型的判断

创业近三年,曹越押注自回归路线、做音画同出、采用MoE架构的底层思考同源,即让每个人能消费非常个性化的内容,前提是降低内容生产成本。他不关心是否站在市场共识一边,认为过于关心他人认知,大概率没从第一性原理思考问题。

对于世界模型,曹越认为它还在“前GPT时代”,数据不够、定义不清、技术路线未收敛。世界模型是2026年最说不清道不明的AI概念之一,杨立昆、李飞飞等学术巨擘押注不同方向,Sora已在3月暂时停运,国内也有多家明星初创进入该领域。

一方面,世界模型寄托人们对未来模型路线的想象;另一方面,它成了fomo情绪的出口。但曹越确定视频模型是通往终局的重要路径,因为视频数据距离世界的Observation最接近且体量足够大。

应用探索与产品策略

在推进基础模型训练同时,Sand.ai已在应用侧落子,探索过数字人、视频Agent等产品。今年1月上线的音乐Agent产品VidMuse,三个月做到千万美元ARR的体量。

曹越表示,创业公司若没有训练出SOTA模型的能力,易被模型厂商整合,Sand.ai会继续边做模型边做应用。

做模型的公司做垂直整合后,成本和体验更好。在视频模型方向上,必须模型和产品双轮驱动。Sand.ai以模型为核心采用多产品矩阵打法,现阶段选了Agent方向,VidMuse商业化已被验证成立。

用户反馈有助于模型的后训练,产品不局限于调用自己的模型,收集的数据能让自身模型效果更好。视频领域过去两年是模型牵引产品,模型解锁能力,产品侧搭建的脚手架就减少。

Sand.ai的开源模型持续贡献价值,开源的MagiAttention算子库被国内几乎所有多模态模型团队使用,英伟达官方也推荐用它训多模态模型。

行业竞争与发展趋势

Seedance 2.0的爆发证明多镜头叙事重要,音画同出由Veo3先实现,多镜头叙事由Sora2先实现,但Sora在多主体参考、多镜头叙事细节效果上不足,而Seedance 2.0补齐维度吃到红利。

视频模型的垄断程度不会比语言模型更高,目前竞争烈度没语言模型高,领先窗口约两三个月,行业最终可能留下三五家分市场。

OpenAI关停Sora是合理的战略收缩,一是为上市优化短期目标,二是在Coding上落后,将Sora算力平移到Codex模型更可能撑起上市业绩。

中国能快速在视频模型上做到世界Tier 1,与起步早晚有关,国内外视频模型起步时间差距不大,且国内短视频生态活跃加速了模型应用落地。

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/30 3:40:41

THS7530EVM评估板实战指南:全差分放大器高速电路设计与调试

1. 项目概述:从评估板到实战设计在模拟电路设计,尤其是高速信号链的构建中,全差分放大器(FDA)是一个绕不开的核心器件。它不像普通的单端运放那样“接地气”,其差分输入和输出的架构,天生就是为…

作者头像 李华
网站建设 2026/6/30 3:39:29

IP2336H至为芯支持C口双向快充的18W多串锂电池充放电芯片

英集芯IP2336H是一款用于蓝牙音箱、电动工具、移动电源等充电方案的锂电池充放电管理SOC芯片。升压充电兼容5V/3A、9V/2.2A;反向降压放电同样支持 5V/3A、9V/2.2A 输出,充放电功率高达18W。硬件可灵活定制,适配2~6串锂电池配置。集成PD3.0、Q…

作者头像 李华
网站建设 2026/6/30 3:36:13

Kubernetes StatefulSet 容器存储架构

Kubernetes StatefulSet 容器存储架构解析 在云原生应用部署中,有状态服务(如数据库、消息队列)的稳定运行依赖持久化存储和拓扑顺序。Kubernetes StatefulSet 正是为此设计的控制器,它通过独特的存储架构解决了有状态应用的部署…

作者头像 李华
网站建设 2026/6/30 3:30:00

量化模型在 AMD 显卡上的推理加速,SGLang 配合 INT8 实践

为什么在 AMD 显卡上死磕 INT8 量化 对于关注推理成本和速度的工程团队来说,显存带宽往往是最大的瓶颈。在 NVIDIA 生态里,INT8 量化已经是标配,但在 AMD ROCm 平台上,很多开发者还停留在 FP16 阶段。其实,随着 SGLan…

作者头像 李华
网站建设 2026/6/30 3:29:39

引入“子智能体”与精细化缓存:拆解 OpenAI 突袭发布的 GPT-5.6 Sol

2026 年的中旬,大模型领域的“神仙打架”再次迎来了技术范式的剧烈更替。 OpenAI 在其官网上预览了全新一代的 GPT-5.6 系列模型。让人意外的是,这次官方不仅彻底重构了命名体系(划分为旗舰 Sol、均衡 Terra、经济 Luna)&#xf…

作者头像 李华
网站建设 2026/6/30 3:29:05

JumpServer+MaxKB联合方案:打破运维僵局,实现安全与效率双赢!

IT运维困境待解在IT基础设施复杂度持续提升的当下,资产巡检陷入安全合规与效率经验的双重困境。一方面,安全与合规要求生产环境操作受堡垒机审计与拦截,杜绝高危越权操作;另一方面,效率与经验存在断层,控制…

作者头像 李华