邬霄云:AI从技术走向落地用户体验是最重要的粘合剂

科学技术 2019-11-09124未知admin

  受 Datafun 社区的邀请,与NLP从业者分享了机器阅读理解技术及其应用。

  奇点机智在今年百度举行的中文阅读理解大赛上拿了冠军,而且比第二名高出三个点左右。我听到过许多的反馈,大家对机器阅读理解的技术这方面比较感兴趣,那么今天要讲的东西呢,主要分成三部分:

  第一部分是问答系统和阅读理解的基本概念,介绍一下比较传统的模块化的问答系统;第二部分,是讲一个比较新的端到端的系统技术,我们在百度的阅读理解竞赛中夺冠正是使用的这项技术;除此之外本次我还会分享一些奇点机智在语音对话交互领域的落地应用和本行业趋势。

  第一个是自动问答和阅读理解。斯坦福大学从2017年就开始做 SQuAD,它把这个竞赛变成了一个类似于 ImageNet 一样大家可以刷榜的竞赛,所有的人都在争第一,同时变相的促进了技术的进步。最早的 MSA 周铭老师的队伍,后来科大讯飞和哈工大的老师一起做,成绩也都不错。

  SQuAD 1.0 的时候榜单上最好的成绩是83%左右,但是后来斯坦福的专家将数据集进行了更新,进入了 SQuAD 2.0 时代,在换了一些似是而非的答案后,很多解决方案都一夜回到将解放前,准确率一度降低到60%多。

  最近不知道大家有没有关注 Google 出了个模型叫做Bert,奇点机智内部笑称它是大力出奇迹。它的具体原理很简单,就是找一个 model 能够融合所有的数据,然后让它自己训练。Google这样资金充足算力强的公司,需要等两周,但对于我们普通公司来说,会等待相对更长的时间。NLP是一件比较综合的事情,做好还是比较难的,我们这一行有两个不太好的状况:我们现在拿到的GPU最早是给Image设计的,都是四四方方的,它对图像处理是得天独厚的。NVDIA对图像的处理积累了20多年,但对 NLP 的作用就不是那么大,DNN 对 Image 领域的受益是最大的。自然语言不是一个规则的东西,做结构化分析和链式分析都不是很好做,这些事情在GPU上运行是非常非常难受,需要做很多额外的预处理操作;回到 Bert,它真的是大力出奇迹,它就是硬算,不考虑其他任何东西,然后结果竟然非常好。

  问答系统在自然语言处理里其实已经有很多很多年了,是一个 NLP 的标杆性应用。

  我们在实际的生活中也经常用问答来查看对象是否真的理解:比如说老师对学生的问答,可以查看学生们的理解水平。现在问答在 NLP 里面有很多作为核心技术的应用,比如说智能客服和手机上的虚拟助手,比如说苹果 siri 或百度的小度、微软小冰等等。

  下面简单介绍一下问答系统,我们可以把问题简单的分成几类,一类是简单的事实,比如:地球直径多大;第二类是定义的事实类;第三类是列表类;第四类是长答案类,最后一类为是非类,看着很简单,实际上这是最难的一类问题。下图是业界常见的问答 系统:

  下面我们看看模块化问答系统的回答方法,它们有很多种,比如说有特制服务的问答,比如说有一个叫做 WolframAlpha 这个专门基于数学问题的网站,你可以在上面搜索任何数学问题。

  最近还有基于知识图谱的问答和基于搜索的自动问答。比如说微软的一个应用:用户问一个问题“明天需要带伞吗?” Bing 除了去搜索文档外还会有一个专门回答问题的 bot,将把你当前位置的地理位置的天气显示出来。但是这个问答系统的更新方式是非常落后的,需要经常维护更新知识库。

  然后我们介绍一下基于搜索的问答系统的结构,下图是一个比较传统的结构,它是一个模块化的系统。第一步,有了用户的 query 以后,我们并行计算一边对 query 进行分析,另一边将其送入 Google 的搜索引擎找到相应的 docs,然后我们在其中根据 query 匹配答案;阅读理解跟基于搜索的问答非常像,只不过这个问答文档不用你自己找,而是已经输入给系统了,让系统在文档中找出答案。

  接下来是端到端阅读理解。阅读理解数据集 SQuAD 我之前已经讲过,它是以 Wikipedia 页面中的段落作为来源文档,根据文档人工编写问题,答案是文档里面的一个连续片段(span)。还有一个不太有名的比较复杂的数据集是MS MARCO,它的问题来自搜索引擎真实用户提出的问题,相关文档也是信息检索系统从真实网页得到的段落,每个问题对应多个段落,因为标注答案是人工根据文档总结撰写,就增加了复杂度,他和 SQuAD 的区别是他的答案不仅是一个 span,还需要做一些提取和综合,因为比较复杂,所以做的人不是很多,百度前段时间在这个上面拿了第一,但是普适性不是很好。那么具体该怎么做呢?

  首先我讲一下端到端的阅读理解系统的基础架构,如图所示前面是一个模块,后面我们把整个的各种各样的模块都放进一个神经网络里面进行训练。

  比如用户问个问题“什么酶可以分解淀粉?”回答这个问题时,第一步,找到问题中的焦点词 Focus words ,焦点词分为显性和隐性两种,它声明了答案的类型;第二步骤是在文档中将那些有可能是答案的东西找出来。在这个环节里,有个概念是回答的类型,它与焦点词是非常相关的,它主要是找到焦点词所指的类型是什么,这里我们要知道如何运用算法才能识别这个预期答案类型,同样的问答类型的识别可以用粗颗粒答案类型和直接使用 query 中的焦点词作为答案的类型。

  我将从宏观上介绍一下模型的整体结构。几乎所有的模型分成四块:最底层是 Representation(特征表示层),作用是看这个词在这个场景中是什么意思,确定出问题的类型,将问题和篇章的词语转化为向量化特征表示并进行此行的标注;接下来是编码层,主要是衔接底层的特征;然后是匹配所有问题的匹配层。

  要想找到所有的答案,我们要在 model 中把问题的信息通过这个机制对每一个字进行重新表示,利用注意力机制融合问题和篇章信息,我们用的模型是 Match-LSTM 、BiDAF 和 DCA 等;最后我们再通过一种对应准则把每一个字的新表达 span 给找出来,也就是答案片段抽取层负责的工作,这时我们就可以利用两个步的指针网络对组成答案的 span 进行相应的提取操作。相应的细节大家可以在 Paper 上面找,我这里就不详细讲了。如果大家想做这个方面的问答技术实现,我建议大家先跑通这个模型,然后再做一些微调,阅读大量文献找到感觉后再进行创新和改进,从一个好的点到一个更好的点是需要循序渐进的,我认为这样的效率会更高些。

  我们公司要做的事情和现有的大家的想法可能不太一样。虽然大家都知道人工智能的三大要素是算法+数据+算力,不过我认为用户体验是最重要的粘合剂,有了这个粘合剂,才能使AI真正的落地。我非常认同对话的用户体验是一个更自然的体验。

  对任何人来说,最重要的就是时间;因为每天都是24小时,时间过去了再也不会回来。几乎每个人在第一次用外卖 app 的时候,都需要适应一段时间,它有一定的学习成本。当我们第一次想要在买 app 上点一份麻辣烫,需要操作很多步骤才能达成目的。但其实“学习怎么用 app ”不是我们的目的,“点一份外卖麻辣烫”才是我们想要的,这些服务我们希望能跳过“学习用 app”这一步,直接由语音对话帮忙完成。

  学习用app这件事我们年轻人来说还好,但是对于我们的父母或者其他老人来说学习门槛还是很高的。现在有一个趋势是:人们终于发现 app 不太具有吸引力了,大家都开始关注小程序和快应用了,或许小程序和快应用会慢慢替代掉 app 这种形式。人的一辈子是单次路程,我们小学毕业一次,中学毕业一次,大学毕业一次,我们去某地旅游,去一个餐馆吃一次饭,可能就吃这么一次,再也不会去了。同理,我们手机上安装六、七十个 app,但我们一天能用几次呢?

  奇点机智的愿景就是当用户知道自己要做什么时,帮他们通过一句话搞定复杂操作,而不需要浪费时间和精力,去想怎么操作图形界面。

  语音交互两部分,一个是语音交互本身,另一个是商业逻辑。我们公司本身,关注的是商业逻辑。如果想让语音交互能和图形界面交互拥有同样好的体验,那么就要做到任何一个程序员都可以很方便的把他擅长的领域中的体验给做出来,这一点很重要,但是过去国内外企业对这方面积累比较少。

  语音交互的流畅便捷其实具有一定的社会意义,相应地,它的技术细节比较麻烦,不好实现。但语音交互仍将成为未来主流的人机交互方式之一。技术更新迭代大爆发即将来临,我希望奇点机智能够成为时代的弄潮儿。

  最后,我想留一些悬念。关于语音体验的优化,举个例子:在自然语言中,头痛和头疼是一件事,关键在于如何将表达同一含义的说法进行泛化?如何让语音交互的商业逻辑容易地表达出来?如何高效的用声音来控制图形界面操作和业务?

  致力于让企业轻松创建语音交互体验,让对话与服务有效连接。语音对话平台“对话流”由奇点机智自主研发,利用其领先的语音识别、NLP、深度学习技术,为企业提供智能语音对话解决方案。

  科大讯飞股份有限公司(SZ.002230)成立于1999年,是一家专业从事智能语音及语言技术、人工智能技术研究,软件及芯片产品开发,语音信息服务及电子政务系统集成的国家级骨干软件企业。科大讯飞的语音合成、语音识别、口语评测、机器翻译等智能语音与人工智能核心技术代表了世界最高水平。

  微软是美国一家跨国计算机科技公司,以研发、制造、授权和提供广泛的计算机软件服务为主。总部位于美国华盛顿州的雷德蒙德,最为著名和畅销的产品为Microsoft Windows操作系统和Microsoft Office办公室软件,以及Xbox的游戏业务。微软是美国《财富》杂志2015年评选的世界500强企业排行榜中的第95名。

  奇点机智成立于2014年11月,致力于通过机器智能改善用户体验,让人机交互更加简单自然。“小不点”是由奇点机智为安卓系统打造的智能应用助理,用户可通过对话的方式操控手机应用中的各项功能,目前可对200多款应用程序进行操作。“就一句话的事”,即可满足社交、娱乐、购物、支付、出行等需求。另外,用户可以根据个性化需求录制新技能,并可发布分享给其他用户,让“小不点”越用越智能。此外,奇点机智同时为应用开发者、运营者、产品者提供NI开发者平台,无需编码或调用第三方应用API,即可根据用户需求添加语音指令,极大提升产品体验。奇点机智曾获线万美元天使轮投资,以及襄禾资本/NEA 500万美元A轮投资;于2017年11月被评为“中关村高新技术企业”。

  信息检索(IR)是基于用于查询检索信息的任务。流行的信息检索模型包括布尔模型、向量空间模型、概率模型和语言模型。信息检索最典型和最常见的应用是搜索引擎。

  在学术研究领域,人工智能通常指能够感知周围环境并采取行动以实现最优的可能结果的智能体(intelligent agent)

  我们可以粗略地把神经注意机制类比成一个可以专注于输入内容的某一子集(或特征)的神经网络. 注意力机制最早是由 DeepMind 为图像分类提出的,这让「神经网络在执行预测任务时可以更多关注输入中的相关部分,更少关注不相关的部分」。当解码器生成一个用于构成目标句子的词时,源句子中仅有少部分是相关的;因此,可以应用一个基于内容的注意力机制来根据源句子动态地生成一个(加权的)语境向量(context vector), 然后网络会根据这个语境向量而不是某个固定长度的向量来预测词。

  知识库是用于知识管理的一种特殊的数据库,以便于有关领域知识的采集、整理以及提取。知识库中的知识源于领域专家,它是求解问题所需领域知识的集合,包括基本事实、规则和其它有关信息。

  (人工)神经网络是一种起源于 20 世纪 50 年代的监督式机器学习模型,那时候研究者构想了「感知器(perceptron)」的想法。这一领域的研究者通常被称为「联结主义者(Connectionist)」,因为这种模型模拟了人脑的功能。神经网络模型通常是通过反向传播算法应用梯度下降训练的。目前神经网络有两大主要类型,它们都是前馈神经网络:卷积神经网络(CNN)和循环神经网络(RNN),其中 RNN 又包含长短期记忆(LSTM)、门控循环单元(GRU)等等。深度学习是一种主要应用于神经网络帮助其取得更好结果的技术。尽管神经网络主要用于监督学习,但也有一些为无监督学习设计的变体,比如自动编码器和生成对抗网络(GAN)。

  分类模型的正确预测所占的比例。在多类别分类中,准确率的定义为:正确的预测数/样本总数。 在二元分类中,准确率的定义为:(真正例数+真负例数)/样本总数

  人工智能领域用逻辑来理解智能推理问题;它可以提供用于分析编程语言的技术,也可用作分析、表征知识或编程的工具。目前人们常用的逻辑分支有命题逻辑(Propositional Logic )以及一阶逻辑(FOL)等谓词逻辑。

  图像处理是指对图像进行分析、加工和处理,使其满足视觉、心理或其他要求的技术。 图像处理是信号处理在图像领域上的一个应用。 目前大多数的图像均是以数字形式存储,因而图像处理很多情况下指数字图像处理。

  自然语言处理(英语:natural language processing,缩写作 NLP)是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言;自然语言认知则是指让电脑“懂”人类的语言。自然语言生成系统把计算机数据转化为自然语言。自然语言理解系统把自然语言转化为计算机程序更易于处理的形式。

  人机交互,是一门研究系统与用户之间的交互关系的学问。系统可以是各种各样的机器,也可以是计算机化的系统和软件。人机交互界面通常是指用户可见的部分。用户通过人机交互界面与系统交流,并进行操作。小如收音机的播放按键,大至飞机上的仪表板、或是发电厂的控制室。

  问答系统是未来自然语言处理的明日之星。问答系统外部的行为上来看,其与目前主流资讯检索技术有两点不同:首先是查询方式为完整而口语化的问句,再来则是其回传的为高精准度网页结果或明确的答案字串。以Ask Jeeves为例,使用者不需要思考该使用什么样的问法才能够得到理想的答案,只需要用口语化的方式直接提问如“请问谁是美国总统?”即可。而系统在了解使用者问句后,会非常清楚地回答“奥巴马是美国总统”。面对这种系统,使用者不需要费心去一一检视搜索引擎回传的网页,对于资讯检索的效率与资讯的普及都有很大帮助。从系统内部来看,问答系统使用了大量有别于传统资讯检索系统自然语言处理技术,如自然语言剖析(Natural Language Parsing)、问题分类(Question Classification)、专名辨识(Named Entity Recognition)等等。少数系统甚至会使用复杂的逻辑推理机制,来区隔出需要推理机制才能够区隔出来的答案。在系统所使用的资料上,除了传统资讯检索会使用到的资料外(如字典),问答系统还会使用本体论等语义资料,或者利用网页来增加资料的丰富性。

Copyright © 2002-2013 中华科学网 版权所有  

联系QQ:1352848661