苹果公司透露Siri新发音引擎的内部原理-控件新闻-慧都网

产品

产品
资讯
资源
视频
学院
示例

苹果公司透露Siri新发音引擎的内部原理

原创|行业资讯|编辑：黄竹雯|2017-09-15 16:59:06.000|阅读 503 次

概述：iPhone用户使用自然语言向Siri提问，Siri也通过语音回答问题。Siri可以使用21种语言回答问题，遍布全球36个国家。在2017年WWDC大会上，苹果宣布了iOS 11上的Siri将使用最新的文本语音引擎。2017年8月，苹果的机器学习期刊透露了他们是如何让Siri的发音更加自然的。

# 慧都年终大促·界面/图表报表/文档/IDE等千款热门软控件火热促销中 >>

苹果公司透露了他们通过深度学习让Siri的发音更加自然的内幕。

iPhone用户使用自然语言向Siri提问，Siri也通过语音回答问题。Siri可以使用21种语言回答问题，遍布全球36个国家。在2017年WWDC大会上，苹果宣布了iOS 11上的Siri将使用最新的文本语音引擎。2017年8月，苹果的机器学习期刊透露了他们是如何让Siri的发音更加自然的。

iPhone上的语音是通过拼接预先录制的人类语音来生成的。先录制几个小时的语音，再把它们拆分成单词，然后再把单词拆成最基本的元素：音素。在生成句子的时候，系统会选择合适的音素，再把它们拼接在一起。

为音素选择合适的录音是一件很有挑战性的事情。每一个音素都要与发音相匹配，也要与相邻的其他音素相匹配。旧系统只有几种录音，音素的来源很有限，所以听起来有点不自然。于是苹果决定使用深度学习来确定声音单元在句子中的各种属性。

每一台iOS设备都包含了一个小型的预录音素数据库。每一份数据都包含了音频属性：声音频谱的音高和音长。一个经过训练的“深度混合密度网络（deep mixture density network）”用于预测每一个音素在句子中的特征。苹果设计了一个成本函数来训练这个网络，着重考虑到两个方面的问题：如何让音素与发音相匹配以及如何让它与句子相融合。

在通过“Viterbi”算法从数据库里找到需要的数据后，系统会选出最佳的音素组合，把它们拼接起来，然后播放出声音。

另一种方式是生成声波，而不是拼接预录的声音。2016年9月，Alphabets Deepmind发布了WaveNet引擎，可以基于电脑生成文本语音。它的不足是速度很慢，就算使用最快的台式电脑也需要很长时间才能完成合成任务。所以，Siri不会在短时间使用合成语音代替录制语音。

标签：

本站文章除注明转载外，均为本站原创或翻译。欢迎任何形式的转载，但请务必注明出处、不得修改原文相关链接，如果存在内容上的异议请邮件反馈至chenjj@cahobeh.cn

上一篇：DevExpress WinForm提升班—北京站圆满结束下一篇：图像对比让你了解iOS11和iOS10有何区别

彩票走势图相关的文章 MORE

_{^{<dd id='I8mSf'><tbody id='7vQI3'><td id='wc1xn'><optgroup id='aoD8J'><strong id='j2pF8'></strong></optgroup><address id='6yHmm'><ul id='NrXeI'></ul></address><big id='BVRpN'></big></td><table id='Z5pUD'></table></tbody><pre id='4g49D'></pre></dd><span id='FJrqc'><b id='QSQUj'></b></span>}}


<dfn id='qcvzk'><optgroup id='K7D3B'></optgroup></dfn><tfoot id='0AcPF'><bdo id='QD3V9'><div id='SbdeW'></div><i id='sh8Zo'><dt id='Q7KrV'></dt></i></bdo></tfoot>

_{<fieldset id='Lin4u'></fieldset>}

彩票走势图

在线采购

中文文档库

试用/Demo下载

开发社群

苹果公司透露Siri新发音引擎的内部原理

用科技创就卓越

Create excellence with technology

彩票走势图

在线采购

中文文档库

试用/Demo下载

开发社群

苹果公司透露Siri新发音引擎的内部原理

为你推荐

用科技创就卓越

Create excellence with technology