投递人 itwriter 发布于 2018-05-14 15:18 原文链接 [收藏] « »

Google 新技术,能为人工智障般的语音助手扳回一局?

  在最近谷歌的 Google I/O大会上,谷歌 CEO“劈柴“直接祭出了这次大会的王牌 AI,这个 AI 产品似乎像人们展现了人工智能技术的进一步提升,Assistant 的“持续性对话”功能让对话更自然,而“多重行动”功能让用户在一次对话中可以提出多个问题。

  这似乎是一个标志性的转变,存在对话生硬、无法多轮对话等诸种弊病的语音助手在这场 GoogleI/O大会上表现的尤为智能。相比 Apple Siri 和 Microsoft  Cortana 只能机械式对话的语音互动,Google Assistant 似乎表现尤为优异(至少在发布会上),那么,GoogleAssistant 的出现是谷歌在 AI 语音助手领域的一张王牌吗?

  惊艳全场的“嗯哼”

  想要探究 AI 语音助手的智能程度,其评判标准就是如何做到让 AI“像人”,这是一个深度学习的能力问题,而体现在表现形式上则为“话术”,如何能够让语音助手真正突破“图灵测试”,让用户人机难辨。然而,当下 Google Assistant 似乎正朝着全面“类人化”的方向发展。

  以 Google Assistant 在 GoogleI/O大会上的表现为例,发布会上,用户对 Google Assistant 说:我想剪头发。Google Assistant 接受指令后直接帮你电话预约。

  Google Assistant 先拨通了 Jim 理发店的电话,进行电话预约剪发。

  (插入 gif 图1)

  Google Assistant:你觉得时间定为 3 号可以吗?

  理发店:我需要查查 Jim 老师的档期,稍等。

  Google Assistant:嗯哼?

  (插入 gif 图2)

  这一句“嗯哼”让全场所惊艳,AI 的反应似乎出乎了所有人的预料,然而,这一切并没有结束。

  理发店:3 号 12 点不行,Jim 老师已经有预约了。

  Google Assistant:那 10 点到 12 点这段时间呢?

  理发店:您的顾客是想烫头发还是剪头?

  Google Assistant:只是简单修剪一下。

  理发店:那没有问题,我们 10 点见!

  (插入 gif 图3)

  诚然,对于人类来说,此类“嗯”、“呃”之类的语气词是再正常不过,可是对于机器而言,这是一件难以做到的事情。事实上,Google Assistant 说“嗯嗯”,好似在点头同意;而其所拉长的某些词的发音,又好像它正在花时间去思考一个问题的答案,当然,这一切都是是由编程算法即时实现的。

  谷歌助手的背后是一种称之为“Duplex”的技术,这由纽约、特拉维夫和山景城的谷歌工程师和产品设计师联合开发,该技术可实现一小部分人可以完成预订餐厅、查看假日时间等通常通过电话进行的活动。所有这些交互都发生在后端——谷歌数字助理 Assistant 和餐厅之间。

  搭载数字助理 Assistant 的智能家居

  此外,Google Assistant 除了一种男性发音和女性发音外,其还可以用六种声音说话。谷歌还使用户能够更轻松地提出后续问题,并在开车并使用谷歌地图时自动向某些人发送你的预计抵达时间。

  GoogleAssistant 真的“完美无缺”吗?

  Google Assistant 新技术的应用,许多人认为“这下真的分不清对面对面是人是狗了”,但是,Google Assistant 显然并不是完美无瑕,皮查伊在开发者大会上展示的 demo 距离落地还有多远?所展示的 GoogleAssistant 落地后真的会如此惊艳吗?智能相对论(aixdlun)分析师柯鸣认为,谷歌语音助理虽然已经突破了众多技术瓶颈,但其真正能够应用于生活场景中,并完全替代“人类助理”,依然尚需时日。

  首先,google duplex 似乎已经可以解决自然对话的问题。展开一段自然的对话有这么几个难点:自然语言难以理解,人类的自然行为很难建模,人类对延迟的耐受性很低所以需要高处理速度,以及生成听起来自然的语音,其中还要适当地夹杂一些语气词。

  谷歌联合使用了一个级联 TTS 引擎和一个生成式 TTS 引擎(其中使用了 Tacotron 和 WaveNet),根据不同的情境控制语音的语调。

  为了让语音变得更加亲切自然,这个系统能够生成一系列语气词,这也是让大家所惊叹的地方,比如“hmmm”、“uh”等语气词。

  当级联 TTS 需要组合变化很大的语音单元,或者需要增加生成的停顿时,语气词就会被添加到生成的语音中,这就让这个系统可以以一种自然的方式向对方示意“是的我听着呢”或者“我还在考虑”(人类说话的时候就经常在思考的同时发出一些语气词)。谷歌的用户调查也确认了人类觉得带有语气词的对话更熟悉、更自然。

  Duplex 的运作模式

  但是,也正是 TTS 的表现让人觉得其仍有可商榷之处。如从自然语言训练的方法角度看,通过充分的数据梳理,借助机器学习在某个单一领域穷举各种情况,继而达到 Google 在今天所展示的效果尚有可能。

  但目前没有公司可以做到全方位理解各种场景。也就是说,Google Assistant 所擅长的也是针对特定场景的,例如预订餐位和理发。

  这能否在所有场景中具有普适性,目前依然无法得知。从这个角度来看,小场景有限话题模拟对话并不是难题,针对 demo 优化到流畅也能够做到,这是否能够真正替代“人类助理”,依然是一个尚未确知的问题。

  其次,从伦理和信息安全的的角度来看,Google Assistant 依然存在着诸多争议。比如,谷歌官方曾表示:“现在的技术并没有达到只通过与开发人员对话就学会如何像人一样说话的水平,为了获得高精度,我们在匿名电话的会话数据库上对 Duplex 的 RNN 进行了训练。”

  在数百个小时的训练过程中,它记录下了客户们电话中的通话记录。这让我们又一次回到了十年来一直在进行的辩论,即维护个人数据隐私和推进技术便利的界限究竟在何处,Facebook 的信息泄露案更将这个问题推到了风口浪尖。

  当然,倘若撇开公地悲剧的存在主义解决方案不谈,Duplex AI 的出现还暴露了许多实际问题。例如,如何防止某人非法利用公众人物的录音来训练人工智能,并生成伪造的音频?

  此外,我们还需要防止伪造视频的攻击,鉴于人们已经能够伪造图像和视频(甚至色情),并能够合并一层虚假音频,谷歌和 Facebook 的内容审核工作将面临着更大的困难。 

  谷歌这条路好走吗?

  谷歌语音助手这条路,已经走了很久。最早的 GoogleNow 作为谷歌语音助手的最初形式出现在人们面前,Google Now 2012 年最早出现在安卓 4.1 和 Nexus 手机上,随后又推出面向移动设备信息快速检索服务的“Now On Tap”、以及“Now cards”。

  从 2016 年开始,Google Assistant 就开始逐步取代 Google Now,相应的功能也被替换,“Now cards”被“Feed”取代,“Now on Tap”被“Screen Search”所取代。

  最早于 2016 年与 Google Home 一起亮相的 Google Assistant,依托着谷歌系产品的用户量级,虽然同类竞品亚马逊的 Echo 已经占据一定市场,但是依然有着一定发展的前景和底气。

  但是,如果谷歌的目标是让 Assistant 成为拟人化的谷歌,那么仍有很多事情要做。若想实现与斯派克·琼斯(Spike Jonze)科幻电影《她》(Her)中的操作系统 Samantha 进行对话的那样,谷歌依然还有一定距离。

  当然,相较于市场上同类系的其他产品,Google Assistant 的表现确实稍显优秀。Stone Temple Consulting 与 ROAST 公司 2018 年发布的智能语音助理测试报告也显示,Google Assistant 手机版能回答的题目最多,高达 90%,准确率也有将近 80% 的超高表现。

来源:Stone Temple Consulting、ROAST 测试报告

  其实,严格来说,谷歌的竞争对手 Alexa,Siri 和 Cortana 都没有兑现他们的承诺。Alexa,Siri 等都存在着或大或小的问题,每个产品在市场中的表现似乎都没有人们想象中的优异。

  当然,谷歌并非第一个进入语音助理领域的公司。作为后来者,CIRP 公司的数据显示,2016 年发布的 GoogleHome 占有 31% 的市场份额,较之亚马逊的 69% 的市场份额稍显不足。

  总的来说, “AI 很好,但不够惊人”,始终是近年来笼罩在 AI 语音市场上的浓重阴影。当然,随着日后 GoogleAssistant 新技术的逐渐应用,这是否能够成为谷歌新的“杀手锏”仍需时间检验,而谷歌语音助理的这条路,也将坚定的走下去。

24小时阅读排行

    最新新闻

      相关新闻