17.3K Star！微软开源VibeVoice，AI语音合成新突破，支持90分钟多人对话和实时流式TTS-Seo优化-塔城地区网站建设公司

一直在找能生成自然对话的AI语音工具，试过不少TTS系统，要么只能单人发音，要么音质僵硬不自然，更别说生成播客那种多人对话了。最近微软开源了VibeVoice这个项目，能生成最长90分钟的多人对话音频，支持4个不同说话人，还有实时流式TTS模式，音质表现力都达到了前沿水平。

VibeVoice是什么

它是微软开源的前沿语音AI框架，专为生成富有表现力的长篇多人对话音频而设计，比如播客节目。采用创新的连续语音分词器和next-token扩散框架，结合大语言模型理解上下文和对话流程，突破了传统TTS系统在扩展性、说话人一致性和自然对话方面的限制。支持中英文，可以生成自然的多人对话、跨语言合成、甚至自发性唱歌。

开源成就

• Star数已经收获17.3K Star
• 主开发语言主要用Python开发
• 开源协议采用MIT协议，完全开源
• 官方背书微软官方开源项目，基于Qwen2.5模型

核心功能

•超长对话生成，可以生成最长90分钟的连续对话音频，突破了传统TTS系统1-2分钟的长度限制，特别适合制作播客节目
•多说话人支持，支持最多4个不同说话人的自然对话，每个说话人都有独特的音色和说话风格，说话人一致性表现优秀
•实时流式TTS，VibeVoice-Realtime-0.5B模型支持实时文本输入和流式语音生成，首个音频块延迟仅约300ms，可用于实时对话应用

# 实时TTS特性 - 首音延迟: ~300ms - 支持流式文本输入 - 适合单说话人实时生成 - 可通过WebSocket部署Demo

•超低帧率分词器，核心创新使用连续语音分词器(声学和语义)，工作在超低7.5Hz帧率，既保持音频保真度又大幅提升长序列处理效率
•Next-Token扩散框架，利用LLM理解文本上下文和对话流程，扩散头生成高保真声学细节，实现自然的对话转换和情感表达
•多语言实验支持，新增9种语言的实验性说话人(德语、法语、意大利语、日语、韩语、荷兰语、波兰语、葡萄牙语、西班牙语)，欢迎测试反馈

# 支持的语言 核心支持: 中文、英文 实验支持: DE, FR, IT, JP, KR, NL, PL, PT, ES

•跨语言合成，可以实现跨语言语音合成，比如英文转中文或中文转英文，保持说话人特征
•自发性唱歌，模型甚至能生成自发性的唱歌内容，展现出色的表现力和韵律控制能力
•自然对话转换，支持多人对话中的自然停顿、语气转换、情感表达，让对话听起来更真实

安装指南

•在线体验最快，可以直接在Colab上体验实时TTS模型

https://colab.research.google.com/github/microsoft/VibeVoice/blob/main/demo/vibevoice_realtime_colab.ipynb

•克隆仓库安装，下载代码后可以本地部署

git clone https://github.com/microsoft/VibeVoice.git cd VibeVoice

•模型下载，模型托管在Hugging Face上

https://huggingface.co/collections/microsoft/vibevoice-68a2ef24a875c44be47b034f

•实时WebSocket Demo，可以启动实时WebSocket演示服务

# 参考官方文档启动实时Demo # 支持流式文本输入和实时语音生成

•Python包安装，支持通过pip安装

pip install -e .

•语音提示格式，为了降低深度伪造风险并确保首音块低延迟，语音提示以嵌入格式提供，需要定制说话人可联系团队
•依赖项要求，需要Python环境和相关深度学习框架，具体要求参见pyproject.toml

模型变体

模型类型	特点	适用场景
长篇多说话人模型	支持最多4个说话人，90分钟对话	播客制作、有声书、多人对话内容
实时流式TTS模型	300ms首音延迟，流式输入	实时对话、语音助手、直播配音

技术创新

•7.5Hz超低帧率：传统TTS通常使用50-100Hz帧率，VibeVoice创新性地降到7.5Hz，极大提升了长序列处理效率
•声学和语义双分词器：分别处理声学细节和语义内容，保证音质的同时提升生成效率
•LLM驱动的上下文理解：基于Qwen2.5 1.5B模型，深度理解对话上下文和说话人交互
•扩散头生成：使用扩散模型生成高保真音频细节，确保自然度和表现力

风险与限制

•仅供研究使用：微软明确说明该模型仅用于研究和开发目的，不推荐在商业或实际应用中使用
•深度伪造风险：高质量合成语音可能被滥用于伪装身份、欺诈或传播虚假信息，用户必须负责任地使用
•语言限制：核心支持仅限英文和中文，其他语言可能产生意外输出
•不支持非语音音频：模型专注于语音合成，不处理背景噪音、音乐或其他音效
•不支持重叠语音：当前模型不能显式建模或生成对话中的重叠语音片段
•继承基础模型偏差：可能继承Qwen2.5模型的任何偏见、错误或遗漏

应用场景

•播客制作：自动生成多人对话播客，节省录制和后期成本
•有声书制作：为小说等文学作品配上多个角色的声音
•教育内容：制作对话式教学内容，提升学习体验
•语音助手：使用实时TTS模型打造低延迟语音交互系统
•视频配音：为视频内容快速生成多人对话配音
•无障碍应用：为视障用户提供自然的文字转语音服务

开源地址 https://github.com/microsoft/VibeVoice

END 往期推荐 14.5K Star！开源AI编程助手，专为大型项目和复杂任务而生！ 407K Star！GitHub上最全的精选资源库，程序员必备的技术宝库！ 18.5K Star！AI浏览器自动化神器，告别繁琐的网页操作！ 13.7K Star！Google官方AI代理开发神器，多智能体系统开发效率翻倍！ 8.7K Star！不用GPU也能搞语音合成，推荐这个25MB的语音合成神器，从App到嵌入式，从Web到桌面软件，哪里都能用 44.4K Star！告别PDF处理噩梦！这个开源神器让文档转换效率暴涨10倍