微软开源实时语音模型VibeVoice-Realtime-0.5B,300ms实时开声,90分钟长音频都不喘! 微软悄然开源了一枚“黑马级”实时语音模型:VibeVoice-Realtime-0.5B。这可能是目前全球延迟最低、表现最接近真人的开源文本转语音(TTS)模型之一,话还没说完,声音就已经开始了!&a... AI资讯# VibeVoice-Realtime-0.5B# 开源# 微软 1个月前0160
微软发布 VibeVoice 0.5B:仅0.5B参数却实现300毫秒实时开口 微软今日发布全新的实时文本转语音模型 VibeVoice-Realtime-0.5B。尽管模型规模仅为0.5B,但却具备接近实时的语音生成能力,最快可在约300毫秒内开始发声,实现“话未说完音已先到... AI资讯# AI新词# VibeVoice-Realtime-0.5B# 实时文本转语音 1个月前0130
微软推出 VibeVoice-Realtime:实时文本转语音新模型,助力互动式应用 微软最近发布了 VibeVoice-Realtime-0.5B,这是一款针对实时文本转语音(TTS)的轻量级模型。该模型支持流式文本输入和长篇语音输出,特别适合用于代理式应用和实时数据讲述。VibeV... AI资讯# AI新词# Midjourney# TTS 2个月前060