news 2026/6/12 2:30:04

17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

作者头像

张小明

前端开发工程师

1.2k 24
文章封面图
17.3K Star!微软开源VibeVoice,AI语音合成新突破,支持90分钟多人对话和实时流式TTS

一直在找能生成自然对话的AI语音工具,试过不少TTS系统,要么只能单人发音,要么音质僵硬不自然,更别说生成播客那种多人对话了。最近微软开源了VibeVoice这个项目,能生成最长90分钟的多人对话音频,支持4个不同说话人,还有实时流式TTS模式,音质表现力都达到了前沿水平。


VibeVoice是什么

它是微软开源的前沿语音AI框架,专为生成富有表现力的长篇多人对话音频而设计,比如播客节目。采用创新的连续语音分词器和next-token扩散框架,结合大语言模型理解上下文和对话流程,突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。支持中英文,可以生成自然的多人对话、跨语言合成、甚至自发性唱歌。

开源成就

  • • Star数 已经收获17.3K Star

  • • 主开发语言 主要用Python开发

  • • 开源协议 采用MIT协议,完全开源

  • • 官方背书微软官方开源项目,基于Qwen2.5模型

核心功能


  • 超长对话生成,可以生成最长90分钟的连续对话音频,突破了传统TTS系统1-2分钟的长度限制,特别适合制作播客节目

  • 多说话人支持,支持最多4个不同说话人的自然对话,每个说话人都有独特的音色和说话风格,说话人一致性表现优秀

  • 实时流式TTS,VibeVoice-Realtime-0.5B模型支持实时文本输入和流式语音生成,首个音频块延迟仅约300ms,可用于实时对话应用

# 实时TTS特性 - 首音延迟: ~300ms - 支持流式文本输入 - 适合单说话人实时生成 - 可通过WebSocket部署Demo
  • 超低帧率分词器,核心创新使用连续语音分词器(声学和语义),工作在超低7.5Hz帧率,既保持音频保真度又大幅提升长序列处理效率

  • Next-Token扩散框架,利用LLM理解文本上下文和对话流程,扩散头生成高保真声学细节,实现自然的对话转换和情感表达

  • 多语言实验支持,新增9种语言的实验性说话人(德语、法语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、西班牙语),欢迎测试反馈

# 支持的语言 核心支持: 中文、英文 实验支持: DE, FR, IT, JP, KR, NL, PL, PT, ES
  • 跨语言合成,可以实现跨语言语音合成,比如英文转中文或中文转英文,保持说话人特征

  • 自发性唱歌,模型甚至能生成自发性的唱歌内容,展现出色的表现力和韵律控制能力

  • 自然对话转换,支持多人对话中的自然停顿、语气转换、情感表达,让对话听起来更真实

安装指南

  • 在线体验最快,可以直接在Colab上体验实时TTS模型

https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb
  • 克隆仓库安装,下载代码后可以本地部署

git clone https://github.com/microsoft/VibeVoice.git cd VibeVoice
  • 模型下载,模型托管在Hugging Face上

https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f
  • 实时WebSocket Demo,可以启动实时WebSocket演示服务

# 参考官方文档启动实时Demo # 支持流式文本输入和实时语音生成
  • Python包安装,支持通过pip安装

pip install -e .
  • 语音提示格式,为了降低深度伪造风险并确保首音块低延迟,语音提示以嵌入格式提供,需要定制说话人可联系团队

  • 依赖项要求,需要Python环境和相关深度学习框架,具体要求参见pyproject.toml

模型变体

模型类型

特点

适用场景

长篇多说话人模型

支持最多4个说话人,90分钟对话

播客制作、有声书、多人对话内容

实时流式TTS模型

300ms首音延迟,流式输入

实时对话、语音助手、直播配音

技术创新

  • 7.5Hz超低帧率:传统TTS通常使用50-100Hz帧率,VibeVoice创新性地降到7.5Hz,极大提升了长序列处理效率

  • 声学和语义双分词器:分别处理声学细节和语义内容,保证音质的同时提升生成效率

  • LLM驱动的上下文理解:基于Qwen2.5 1.5B模型,深度理解对话上下文和说话人交互

  • 扩散头生成:使用扩散模型生成高保真音频细节,确保自然度和表现力

风险与限制

  • 仅供研究使用:微软明确说明该模型仅用于研究和开发目的,不推荐在商业或实际应用中使用

  • 深度伪造风险:高质量合成语音可能被滥用于伪装身份、欺诈或传播虚假信息,用户必须负责任地使用

  • 语言限制:核心支持仅限英文和中文,其他语言可能产生意外输出

  • 不支持非语音音频:模型专注于语音合成,不处理背景噪音、音乐或其他音效

  • 不支持重叠语音:当前模型不能显式建模或生成对话中的重叠语音片段

  • 继承基础模型偏差:可能继承Qwen2.5模型的任何偏见、错误或遗漏

应用场景

  • 播客制作:自动生成多人对话播客,节省录制和后期成本

  • 有声书制作:为小说等文学作品配上多个角色的声音

  • 教育内容:制作对话式教学内容,提升学习体验

  • 语音助手:使用实时TTS模型打造低延迟语音交互系统

  • 视频配音:为视频内容快速生成多人对话配音

  • 无障碍应用:为视障用户提供自然的文字转语音服务

开源地址 https://github.com/microsoft/VibeVoice

END 往期推荐 14.5K Star!开源AI编程助手,专为大型项目和复杂任务而生! 407K Star!GitHub上最全的精选资源库,程序员必备的技术宝库! 18.5K Star!AI浏览器自动化神器,告别繁琐的网页操作! 13.7K Star!Google官方AI代理开发神器,多智能体系统开发效率翻倍! 8.7K Star!不用GPU也能搞语音合成,推荐这个25MB的语音合成神器,从App到嵌入式,从Web到桌面软件,哪里都能用 44.4K Star!告别PDF处理噩梦!这个开源神器让文档转换效率暴涨10倍

版权声明: 本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!
网站建设 2026/6/11 13:59:36

2025年学术写作利器:10个AI工具提供LaTeX模板与格式校对

2025AI 哪个论文生成网站好?10 款含 LaTeX 模板与论文格式工具工具对比排名工具名称核心优势支持LaTeX适用场景aibiyeAIGC率降个位数,兼容知网规则是AI痕迹强处理aicheck学术改写优化,语义保留佳是格式统一化askpaper降重降AI一体&#xff0c…

作者头像 李华
网站建设 2026/6/11 19:39:31

FaceFusion人脸替换技术应用于影视特效教学实训

FaceFusion人脸替换技术应用于影视特效教学实训 在数字内容创作门槛不断降低的今天,一个戏剧性的变化正在发生:过去需要专业团队、数周时间和昂贵软件才能完成的电影级视觉特效,如今一名普通学生借助AI工具,在几小时内就能实现。这…

作者头像 李华
网站建设 2026/6/12 0:15:31

Open-AutoGLM安全机制深度解析:如何实现跨应用数据零泄漏?

第一章:Open-AutoGLM安全机制深度解析:如何实现跨应用数据零泄漏?Open-AutoGLM 作为新一代自动化语言模型框架,其核心设计理念之一便是保障多应用环境下的数据隔离与隐私安全。通过构建细粒度的权限控制体系与端到端加密传输机制&…

作者头像 李华
网站建设 2026/6/12 7:50:43

FaceFusion镜像支持GPU算力共享池化管理

FaceFusion镜像支持GPU算力共享池化管理 在AI视觉应用日益普及的今天,人脸替换技术早已从实验室走向大众生活。无论是短视频平台上的趣味滤镜、影视制作中的数字替身,还是虚拟主播背后的数字人生成系统,FaceFusion类工具正成为内容创作的核心…

作者头像 李华
网站建设 2026/6/12 9:17:49

揭秘Open-AutoGLM底层架构:零代码实现AI自动化的3个关键步骤

第一章:Open-AutoGLM 无代码自动化底层逻辑概述 Open-AutoGLM 是一个面向非技术用户的无代码自动化平台,其核心在于将复杂的自然语言处理任务封装为可视化流程。系统通过预定义的语义解析引擎,将用户输入的自然语言指令转换为可执行的操作图谱…

作者头像 李华