Google发布Gemini2.5Flash与Pro文本转语音预览模型,全面替代今年5月旧版系统。新模型主打「情绪级」表达、上下文自适应节奏及24语种多角色对话,开发者现可在Google AI Studio与Playground免费测试,预计2025年Q1进入生产环境。

情绪级表达:从「欢快乐观」到「阴郁严肃」一键切换
– 风格响应:对「欢快乐观」「阴郁严肃」等提示词即时调整音色与语速
– 用例:有声书、游戏NPC、本地化课件,避免传统TTS机械感
– 演示:Synergy Intro应用可实时体验多风格切换,输出即专业配音
节奏自适应:上下文感知快慢,叙事更生动
– 机制:复杂解释自动放缓,兴奋段落加速,支持「慢条斯理悬疑→急促惊险」动态变化
– 示例:神秘小说朗读可随剧情逐步加速,转折「咔嗒」一声实现张力释放
– 适用:产品教程、营销视频,告别单调朗读
多角色+24语种:跨语种一致,角色不串线
– 功能:多说话者身份锁定,对话交接自然过渡
– 语言:覆盖英、法、德、日、印地语等24种,保留原音调与风格
– 演示:Voices from History应用实现英-多语种混用历史对话,角色个性稳定
行业反馈:订阅率+20%,成本-20%
– 音频平台:集成后多说话者模式受追捧,订阅率+20%,首月流失率-20%,运营成本-20%
– 内容工作室:英/印地语漫画配音角色一致性获赞,沉浸感显著提升
– 平台计划:2025年Q1推出低延迟Flash版与高质量Pro版并行,满足实时与精品双需求
下一步:低延迟Flash+精品Pro双线并行
Google表示,2025年Q1将并行优化低延迟Flash版(<300ms首包)与高质量Pro版(48kHz采样),并开放边缘节点部署,目标渗透播客、互动游戏、虚拟主播等实时场景。AIbase将持续跟踪其边缘节点部署及付费模式更新。
官网地址:https://x.com/GoogleAIStudio/status/1998876411734692107
© 版权声明
本网转发此文章,旨在为读者提供更多信息资讯,只用于分享,不做任何商业用途,版权归原作者所有。由于条件所限,在转载之前无法与所有权利人联系授权,可能出现部分原创图片或文字未署名,请联系添加。如有侵权,请联系删除处理。
相关文章
暂无评论...
