Google发表新AI语音技术研究语言障碍者的话更能听懂

2020-06-07 04:40:20 来源:C生活书 作者:
Google发表新AI语音技术研究语言障碍者的话更能听懂
Google 

今年 I/O 上 Google 展示了对语言障碍者的最新计划,Project Euphonia 团队透过 AI 帮助语言障碍者也能进行沟通,过去像是渐冻人、中风、帕金森氏症等神经系统疾病患者在沟通非常有挑战性。

Project Euphonia 团队透过 Google 软体将录下的语音转成声谱图,或以更视觉化的图像方式来呈现声音,再利用声谱图训练系统,优化机器辨识这些非典型的语音资料。

近日,Google 在官方文章上再公布了最新的进度,新的深度神经网路研究,推出新的计划 Parrotron,Parrotron 由单个端到端深度神经网络训练而成,能将自非典型语音模式的说话者一般人与电脑较难辨识的语音,直接转换为流利的合成语音,且过程完全不需要另外生成文字,跳过语音辨识的中间步骤。

Google发表新AI语音技术研究语言障碍者的话更能听懂

在今年 Google 东京举办的 AI 机器学习论坛上,Google 也在多个「AI for social good 」专案中,将 Project Euphonia 作为案例,表达出用科技让身障者能重新与世界连结的决心,过去自使用 Google Home 等语音助理对他们来说是遥不可及的。

Google AI 产品经理 Julie Cattiau 说明藉由新的语音辨识模型,语言障碍人士能透过此让机器听懂指令,也能用可辨识手势、眨眼等的电脑视觉模型,让语言障碍者更独立表达。

Google发表新AI语音技术研究语言障碍者的话更能听懂
Google AI 产品经理 Julie Cattiau 在Google 东京 AI 论坛

Google  在新文章中指出,Euphonia 已经建立了语言障碍者个性化的语音转文字模型,输出语音到 TTS 系统再从结果合成语音,将聋哑人士的单字错误率从 89% 降低到 25%,实现与 Parrotron 类似的目标。

然而,在这样的方法中,机器可能选择到不正确的单字产生具有其他含义的单字/句子,让沟通上产生误差。而藉由 Parrotron 端到端语音训练,即使出现错误,生成的输出语音在声音上听起来和输入的语音会更接近。

Google 找来患有失聪的工程师 Dimitri Kanevsky,他也是 Google 语音研究员,录製了15小时的语音资料库,透过 Parrotron 系统的帮助,不论是语音辨识系统还是人类观众,都更听的懂他的语句。

相较之下于过去的语音模型及数, Parrotron 是语言障碍的人士更精準的「传声筒」,在论文讨论关于 Parrotron 更多应用,在 Github 中也能找到其他音频样本,有兴趣的读者也能前往查看。

上一篇:
下一篇:

继续阅读
经典推荐