阿里发布语音合成技术 与原始音频录音接近程度高达97%

7月10日下午消息,阿里巴巴发布新一代语音合成技术KAN-TTS,称可大幅提高合成语音与真人发声的相似度,并将语音合成定制成本降低10倍以上。该技术由达摩院机器智能实验室自主研发。

阿里方面称,当前业界商用系统的合成语音与原始音频录音的接近程度通常在85%到90%之间,而基于KAN-TTS技术的合成语音可将该数据提高到97%以上。

据悉,KAN-TTS由达摩院机器智能实验室自主研发,深度融合了目前主流的端到端TTS技术和传统TTS技术,从多个方面改进了语音合成。传统语音合成定制需要10小时以上的数据录制和标注,对录音人和录音环境要求很高。从启动定制到最终交付,项目周期长成本高。

阿里利用Multi-Speaker Model与Speaker-aware Advanced Transfer Learning相结合的方法,将语音合成定制成本降低10倍以上,周期压缩3倍以上。也就是说,用1小时有效录音数据和不到两个月制作周期,就能完成一次标准TTS定制。

此外,这使得普通用户定制“AI声音”的门槛更低。只需手机录音十分钟,就能获得与录制声音高度相似的合成语音。

推荐DIY文章
联想小新Air14 2023公开部分规格:新笔电将搭载下沉式键盘
朗科新推绝影NV5000-t固态硬盘 温控技术更高 售价暂未公布
2022款iPadPro将可使用视频编辑软件达芬奇 使用软件更专业
苹果全新推出AppleTV 4K产品:流式传输可以千兆以太网进行
智己L7SnakePerformance高性能版:新车瞄准数秒级圈速提升
闪迪大师PRO-G40SSD外置固态硬盘:兼具极速传输与耐用优点
精彩新闻

超前放送