CAAP建筑设计研讨所

编者按：自1998年景立以来，微软亚洲研究院一贯致力于推动打算机科学领域的前沿技能发展。
在建院20周年之际，我们特殊约请微软亚洲研究院不同领域的专家共同撰写“预见未来”系列文章，以各自领域的前瞻视角，从机器学习、打算机视觉、系统架构、图形学、自然措辞处理等多个方向出发，试图描述一幅未来科技蓝图。
NLP是人工智能领域中的主要一环，NLP的进步将推动人工智能的发展。
在过去的二十年里，NLP利用机器学习和深度学习的研究成果，在很多方面取得了长足的进步。
未来十年，将是NLP发展的黄金期间。
本文中，微软亚洲研究院自然措辞打算组的研究员们将为我们盘点NLP已经取得技能进展，并展望未来的研究热点。

比尔·盖茨曾说过，“措辞理解是人工智能皇冠上的明珠”。
自然措辞处理（NLP，Natural Language Processing）的进步将会推动人工智能整体进展。

CAAP建筑设计研讨所生态建筑设计

NLP的历史险些跟打算机和人工智能（AI）的历史一样长。
自打算机出身，就开始有了对人工智能的研究，而人工智能领域最早的研究便是机器翻译以及自然措辞理解。

在1998年微软亚洲研究院成立之初，NLP就被确定为最主要的研究领域之一。
历经二十载春华秋实，在历届院长支持下，微软亚洲研究院在促进NLP的遍及与发展以及人才培养方面取得了非凡的造诣。
共计揭橥了100余篇ACL大会文章，出版了《机器翻译》和《智能问答》两部著作，培养了500名演习生、20名博士和20名博士后。
我们开拓的NLP技能琳琅满目，包括输入法、分词、句法/语义剖析、文摘、情绪剖析、问答、跨措辞检索、机器翻译、知识图谱、谈天机器人、用户画像和推举等，已经广泛运用于Windows、Office、Bing、微软认知做事、小冰、小娜等微软产品中。
我们与创新技能组互助研发的微软对联和必应词典，已经为成千上万的用户供应做事。
过去二十年， NLP利用统计机器学习方法，基于大规模的带标注的数据进行端对真个学习，取得了长足的进步。
尤其是过去三年来，深度学习给NLP带来了新的进步。
个中在单句翻译、抽取式阅读理解、语法检讨等任务上，更是达到了可比拟人类的水平。

基于如下的判断，我们认为未来十年是NLP发展的黄金档：

来自各个行业的文今年夜数据将会更好地采集、加工、入库。

来自搜索引擎、客服、商业智能、语音助手、翻译、教诲、法律、金融等领域对NLP的需求会大幅度上升，对NLP质量也提出更高哀求。

文本数据和语音、图像数据的多模态领悟成为未来机器人的刚需。
这些成分都会进一步促进对NLP的投资力度，吸引更多人士加入到NLP的研发中来。
因此我们须要审时度势、捉住重点、及时方案，面向更大的打破。

因此，NLP研究将会向如下几个方面倾斜：

将知识和知识引入目前基于数据的学习系统中。

低资源的NLP任务的学习方法。

高下文建模、多轮语义理解。

基于语义剖析、知识和知识的可阐明NLP。

重点知识：NLP的技能进展

自然措辞处理，有时候也称作自然措辞理解，旨在利用打算机剖析自然措辞语句和文本，抽取主要信息，进行检索、问答、自动翻译和文本天生。
人工智能的目的是使得电脑能听、会说、理解措辞、会思考、办理问题，乃至会创造。
它包括运算智能、感知智能、认知智能和创造智能几个层次的技能。
打算机在运算智能即影象和打算的能力方面已远超人类。
而感知智能则是电脑感知环境的能力，包括听觉、视觉和触觉等等，相称于人类的耳朵、眼睛和手。
目前感知智能技能已取得飞跃性的进步；而认知智能包括自然措辞理解、知识和推理，目前还待深入研究；创造智能目前尚无多少研究。
比尔·盖茨曾说过， “自然措辞理解是人工智能皇冠上的明珠”。
NLP的进步将会推动人工智能整体进展。
NLP在深度学习的推动下，在很多领域都取得了很大进步。
下面，我们就来一起大略看看NLP的主要技能进展。

1、神经机器翻译

神经机器翻译便是仿照人脑的翻译过程。
翻译任务便是把源措辞句子转换针言义相同的目标措辞句子。
人脑在进行翻译的时候，首先是考试测验理解这句话，然后在脑海里形成对这句话的语义表示，末了再把这个语义表示转化到另一种措辞。
神经机器翻译便是仿照人脑的翻译过程，它包含了两个模块：一个是编码器，卖力将源措辞句子压缩为语义空间中的一个向量表示，期望该向量包含源措辞句子的紧张语义信息；另一个是解码器，它基于编码器供应的语义向量，天生在语义上等价的目标措辞句子。

神经机器翻译模型的上风在于三方面：一是端到真个演习，不再像统计机器翻译方法那样由多个子模型叠加而成，从而造成缺点的传播；二是采取分布式的信息表示，能够自动学习多维度的翻译知识，避免人工特色的片面性；三是能够充分利用全局高下文信息来完成翻译，不再是局限于局部的短语信息。
基于循环神经网络模型的机器翻译模型已经成为一种主要的基线系统，在此方法的根本上，从网络模型构造到模型演习方法等方面，都呈现出很多改进。

神经机器翻译系统的翻译质量在不断取得进步，人们一贯在探索如何使得机器翻译达到人类的翻译水平。
2018年，微软亚洲研究院与微软翻译产品团队互助开拓的中英机器翻译系统，在WMT2017新闻领域测试数据集上的翻译质量达到了与人类专业翻译质量相媲美的水平(Hassan et al., 2018)。
该系统领悟了微软亚洲研究院提出的四种前辈技能，个中包括可以高效利用大规模单语数据的联合演习和对偶学习技能，以及办理曝光偏差问题的同等性正则化技能和考虑网络技能。

2、智能人机交互

智能人机交互包括利用自然措辞实现人与机器的自然互换。
个中一个主要的观点是“对话即平台”。
“对话即平台（CaaP，Conversation as a Platform）是微软首席实行官萨提亚·纳德拉2016年提出的观点，他认为图形界面的下一代便是对话，并会给全体人工智能、打算机设备带来一场新的革命。
萨提亚之以是提出这个观点是由于：首先，源于大家都已经习惯用社比武腕，如微信、Facebook与他人谈天的过程。
我们希望将这种互换过程呈现在当今的人机交互中。
其次，大家现在面对的设备有的屏幕很小（比如手机），有的乃至没有屏幕（比如有些物联网设备），语音交互更加自然和直不雅观。
对话式人机交互可调用Bot来完成一些详细的功能，比如订咖啡，买车票等等。
许多公司开放了CAAP平台，让全天下的开拓者都能开拓出自己喜好的 Bot以便形成一个生态。

面向任务的对话系统比如微软的小娜通过手机和智能设备让人与电脑进行互换，由人发布命令，小娜理解并完成任务。
同时，小娜理解你的习气，可主动给你一些知心提示。
而谈天机器人，比如微软的小冰卖力谈天。
无论是小娜这种看重任务实行的技能，还是小冰这种谈天系统，实在背后单元处理引擎无外乎三层技能：第一层，通用谈天机器人；第二层，搜索和问答（Infobot）；第三层，面向特界说务对话系统（Bot）。

3、谈天系统的架构

机器阅读理解。
自然措辞理解的一个主要研究课题是阅读理解。
阅读理解便是让电脑看一遍文章，针对这些文章问一些问题，看电脑能不能回答出来。
机器阅读理解技能有着广阔的运用前景。
例如，在搜索引擎中，机器阅读理解技能可以用来为用户的搜索（尤其是问题型的查询）供应更为智能的答案。
我们通过对全体互联网的文档进行阅读理解，从而直接为用户供应精确的答案。
同时，这在移动场景的个人助理，如微软小娜（Cortana）里也有直接的运用：智能客服中可利用机器阅读文本文档（如用户手册、商品描述等）来自动或赞助客服来回答用户的问题；在办公领域可利用机器阅读理解技能处理个人的邮件或者文档，然后用自然措辞查询获取干系的信息；在教诲领域用来可以用来赞助出题；在法律领域可用来理解法律条款，赞助状师或者法官判案；在金融领域里从非构造化的文本（比如新闻中）抽取金融干系的信息等。
机器阅读理解技能可形成一个通用能力，第三方可以基于它构建更多的运用。

斯坦福大学在2016年7月发布了一个大规模的用于评测阅读理解技能的数据集（SQuAD），包含10万个由人工标注的问题和答案。
SQuAD数据集中，文章片段（passage）来自维基百科的文章，每个文章片段（passage）由众包办法，标注职员提5 个问题，并且哀求问题的答案是passage中的一个子片段。
标注的数据被分成演习集和测试集。
演习集公开拓布用来演习阅读理解系统，而测试集不公开。
参赛者须要把开拓的算法和模型提交到斯坦福由其运行后把结果报在网站上。

一开始，以 100 分为例，人的水平是 82.3 旁边，机器的水平只有 74 分，机器相差甚远。
后来通过不断改进，机器阅读理解性能得以逐步地提高。
2018年1月，微软亚洲研究院提交的R-Net系统首次在SQuAD数据集上以82.65的精准匹配的成绩首次超越人类在这一指标上的成绩。
随后阿里巴巴、科大讯飞和哈工大的系统也在这一指标上超越人类水平。
标志着阅读理解技能进入了一个新的阶段。
最近微软亚洲研究院的NL-Net和谷歌的BERT系统又先后在模糊匹配指标上打破人类水平。
对付阅读理解技能的推动，除了SQuAD数据集起到了关键浸染之外，还有如下三个方的成分：首先，是端到真个深度神经网络。
其次，是预演习的神经网络；末了，是系统和网络构造上的不断创新。

4、机器创作

机器可以做很多理性的东西，也可以做出一些创造性的东西。
早在2005年，微软亚洲研究院在时任院长沈向洋的发起和支持下成功研发了《微软对联》系统。
用户出上联，电脑对出下联和横批，语句非常工致。

在此根本上，我们又先后开拓了格律诗和猜字谜的智能系统。
在字谜游戏里，用户给出谜面，让系统猜出字，或系统给出谜面让用户猜出字。
2017年微软研究院开拓了电脑写自由体诗系统、作词谱曲系统。
中心电视台《机警过人》节目就曾播放过微软的电脑作词谱曲与人类选手进行词曲创作比拼的内容。
这件事解释如果有大数据，那么深度学习就可以仿照人类的创造智能，也可以帮助专家产生更好的想法。

就作词来说，写一首歌词首先要决定主题。
比如想写一首与“秋”、“岁月”、“沧桑”、“感叹”干系的歌，利用词向量表示技能，可知“秋风”、“流年”、“岁月”、“变迁”等词语比较干系，通过扩展主题可以约束天生的结果倾向人们想要的歌词，接着在主题模型的约束下用序列到序列的神经网络，用歌词的上一句去天生下一句，如果是第一句，则用一个分外的序列作为输入去天生第一句歌词，这样循环天生歌词的每一句。

下面也简介一下谱曲。
为一首词谱曲不单要考虑旋律是否好听，也要考虑曲与词是否对应。
这类似于一个翻译过程。
不过这个翻译中的对应关系比自然措辞翻译更为严格。
它需严格规定每一个音符对应到歌词中的每一个字。
例如每一句有N个字，那么就须要将这句话对应的曲切分成N个部分，然后顺序完成对应关系。
这样在“翻译”过程中要“翻译”出合理的曲谱，还要给出曲与词之间的对应关系。
我们利用了一个改进的序列到序列的神经网络模型，完成从歌词“翻译”到曲谱的天生过程。

趋势热点：值得关注的NLP技能

从最近的NLP研究中，我们认为有一些技能发展趋势值得关注，这里总结了五个方面：

热点1，预演习神经网络

如何学习更好的预演习的表示，在一段韶光内连续成为研究的热点。
通过类似于措辞模型的办法来学习词的表示，其用于详细任务的范式得到了广泛运用。
这险些成为自然措辞处理的标配。
这个范式的一个不敷是词表示短缺高下文，对高下文进行建模依然完备依赖于有限的标注数据进行学习。
实际上，基于深度神经网络的措辞模型已经对文本序列进行了学习。
如果把措辞模型关于历史的那部分参数也拿出来运用，那么就能得到一个预演习的高下文干系的表示。
这便是Matthew Peters等人在2018年NAACL上的论文“Deep Contextualized Word Representations”的事情，他们在大量文本上演习了一个基于LSTM的措辞模型。
最近Jacob Delvin等人又取得了新的进展，他们基于多层Transformer机制，利用所谓“MASKED”模型预测句子中被粉饰的词的丢失函数和预测下一个句子的丢失函数所预演习得到的模型“BERT”，在多个自然措辞处理任务上取得了当前最好的水平。
以上提到的所有的预演习的模型，在运用到详细任务时，先用这个措辞模型的LSTM对输入文本得到一个高下文干系的表示，然后再基于这个表示进行详细任务干系的建模学习。
结果表明，这种方法在语法剖析、阅读理解、文本分类等任务都取得了显著的提升。
最近一段韶光，这种预演习模型的研究成为了一个研究热点。

如何学习更好的预演习的表示在一段韶光内将连续成为研究的热点。
在什么粒度（word，sub-word，character）上进行预演习，用什么构造的措辞模型（LSTM，Transformer等）演习，在什么样的数据上（不同文体的文本）进行演习，以及如何将预演习的模型运用到详细任务，都是须要连续研究的问题。
现在的预演习大都基于措辞模型，这样的预演习模型最适宜序列标注的任务，对付问答一类任务依赖于问题和答案两个序列的匹配的任务，须要探索是否有更好的预演习模型的数据和方法。
将来很可能会涌现多种不同构造、基于不同数据演习得到的预演习模型。
针对一个详细任务，如何快速找到得当的预演习模型，自动选择最优的运用方法，也是一个可能的研究课题。

热点2，迁移学习和多任务学习

对付那些本身缺少充足演习数据的自然措辞处理任务，迁移学习有着非常主要和实际的意义。
多任务学习则用于担保模型能够学到不同任务间共享的知识和信息。
不同的NLP任务虽然采取各自不同类型的数据进行模型演习，但在编码器（Encoder）端每每是同构的。
例如，给定一个自然措辞句子who is the Microsoft founder，机器翻译模型、复述模型和问答模型都会将其转化为对应的向量表示序列，然后再利用各自的解码器完成后续翻译、改写和答案天生(或检索)任务。
因此，可以将不同任务演习得到的编码器看作是不同任务对应的一种向量表示，并通过迁移学习（Transfer Learning）的办法将这类信息迁移到目前关注的目标任务上来。
对付那些本身缺少充足演习数据的自然措辞处理任务，迁移学习有着非常主要和实际的意义。

多任务学习（Multi-task Learning）可通过端到真个办法，直接在主任务中引入其他赞助任务的监督信息，用于担保模型能够学到不同任务间共享的知识和信息。
Collobert和Weston早在2008年就最早提出了利用多任务学习在深度学习框架下处理NLP任务的模型。
最近Salesforce的McCann等提出了利用问答框架利用多任务学习演习十项自然措辞任务。
每项任务的演习数据虽然有限，但是多个任务共享一个网络构造，提升对来自不同任务的演习数据的综合利用能力。
多任务学习可以设计为对诸任务可共建和共享网络的核心层次，而在输出层对不同任务设计特定的网络构造。

热点3，知识和知识的引入

如何在自然措辞理解模块中更好地利用知识和知识，已经成为目前自然措辞处理领域中一个主要的研究课题。
随着人们对人机交互（例如智能问答和多轮对话）哀求的不断提高，如何在自然措辞理解模块中更好地利用领域知识，已经成为目前自然措辞处理领域中一个主要的研究课题。
这是由于人机交互系统常日须要具备干系的领域知识，才能更加准确地完成用户查询理解、对话管理和回答天生等任务。

最常见的领域知识包括维基百科和知识图谱两大类。
机器阅读理解是基于维基百科进行自然措辞理解的一个范例任务。
给定一段维基百科文本和一个自然措辞问题，机器阅读理解任务的目的是从该文本中找到输入问题对应的答案短语片段。
语义剖析是基于知识图谱进行自然措辞理解的另一个范例任务。
给定一个知识图谱（例如Freebase）和一个自然措辞问题，语义剖析任务的目的是将该问题转化为机器能够理解和实行的语义表示。
目前，机器阅读理解和语义剖析可以说是最热门的自然措辞理解任务，它们受到了来自全天下研究者的广泛关注和深入探索。

知识指绝大多数人都理解并接管的客不雅观事实，例如海水是咸的、人渴了就想喝水、白糖是甜的等。
知识对机器深入理解自然措辞非常主要，在很多情形下，只有具备了一定程度的知识，机器才有可能对字面上的含义做出更深一层次的理解。
然而获取知识却是一个巨大的寻衅，一旦有所打破将是影响人工智能进程的大事情。
其余，在NLP系统中如何运用知识尚无深入的研究，不过涌现了一些值得关注的事情。

热点4，低资源的NLP任务

引入领域知识（词典、规则）可以增强数据能力、基于主动学习的方法增加更多的人工标注数据等，以办理数据资源贫乏的问题。
面对标注数据资源贫乏的问题，譬如小语种的机器翻译、特定领域对话系统、客服系统、多轮问答系统等，NLP尚无善策。
这类问题统称为低资源的NLP问题。
对这类问题，除了设法引入领域知识（词典、规则）以增强数据能力之外，还可以基于主动学习的方法来增加更多的人工标注数据，以及采取无监督和半监督的方法来利用未标注数据，或者采取多任务学习的方法来利用其他任务乃至其他措辞的信息，还可以利用迁移学习的方法来利用其他的模型。

以机器翻译为例，对付稀缺资源的小语种翻译任务，在没有常规双语演习数据的情形下，首先通过一个小规模的双语词典（例如仅包含2000旁边的词对），利用跨措辞词向量的方法将源措辞和目标措辞词映射到同一个隐含空间。
在该隐含空间中, 意义附近的源措辞和目标措辞词具有附近的词向量表示。
基于该语义空间中词向量的相似程度构建词到词的翻译概率表，并结合措辞模型，便可以构建基于词的机器翻译模型。
利用基于词的翻译模型将源措辞和目标措辞单语语料进行翻译，构建出伪双语数据。
于是，数据稀缺的问题通过无监督的学习方法产生伪标注数据，就转化成了一个有监督的学习问题。
接下来，利用伪双语数据演习源措辞到目标措辞以及目标措辞到源措辞的翻译模型，随后再利用联合演习的方法结合源措辞和目标措辞的单语数据，可以进一步提高两个翻译系统的质量。

为了提高小语种措辞的翻译质量，我们提出了利用通用措辞之间大规模的双语数据，来联合演习四个翻译模型的期望最大化演习方法（Ren et al., 2018）。
该方法将小语种Z（例如希伯来语）作为有着丰富语料的语种X（例如中文）和Y（例如英语）之间的一个隐含状态，并利用通用的期望最大化演习方法来迭代地更新X到Z、Z到X、Y到Z和Z到Y之间的四个翻译模型，直至收敛。

热点5，多模态学习

视觉问答作为一种范例的多模态学习任务，在近年来受到打算机视觉和自然措辞处理两个领域研究职员的重点关注。
婴儿在节制措辞功能前，首先通过视觉、听觉和触觉等感官去认识并理解外部天下。
可见，措辞并不是人类在幼年期间与外界进行沟通的紧张手段。
因此，构建通用人工智能也该当充分地考虑自然措辞和其他模态之间的互动，并从中进行学习，这便是多模态学习。

视觉问答作为一种范例的多模态学习任务，在近年来受到打算机视觉和自然措辞处理两个领域研究职员的重点关注。
给定一张图片和用户提出的一个自然措辞问题，视觉问答系统须要在理解图片和自然措辞问题的根本上，进一步输入该问题对应的答案，这须要视觉问答方法在建模中能够对图像和措辞之间的信息进行充分地理解和交互。

我们在今年的CVPR和KDD大会上分别提出了基于问题天生的视觉问答方法（Li et al., 2018）以及基于场景图天生的视觉问答方法（Lu et al., 2018），这两种方法均在视觉问答任务上取得了非常好的结果，实现了state-of-the-art的效果。
除视觉问答外，视频问答是另一种最近广受关注的多模态任务。
该任务除了包括带有时序的视频信息外，还包括了音频信息。
目前，视频问答作为一种新型的问答功能，已经涌如今搜索引擎的场景中。
可以预见，该任务在接下来一定还会受到更多的关注。

未来展望：空想的NLP框架和发展前景

我们认为，未来空想状态下的NLP系统架构可能是如下一个通用的自然措辞处理框架：

首先，对给定自然措辞输入进行基本处理，包括分词、词性标注、依存剖析、命名实体识别、意图/关系分类等。

其次，利用编码器对输入进行编码将其转化为对应的语义表示。
在这个过程中，一方面利用预演习好的词嵌入和实体嵌入对输入中的单词和实体名称进行信息扩充，另一方面，可利用预演习好的多个任务编码器对输入句子进行编码并通过迁移学习对不同编码进行领悟。

接下来，基于编码器输出的语义表示，利用任务干系的解码器天生对应的输出。
还可引入多任务学习将其他干系任务作为赞助任务引入到对主任务的模型演习中来。
如果须要多轮建模，则须要在数据库中记录当前轮的输出结果的主要信息，并运用于在后续的理解和推理中。

显然，为了实现这个空想的NLP框架须要做很多事情：

须要构建大规模知识数据库并且清晰通过故意义的评测推动干系研究；

研究更加有效的词、短语、句子的编码办法，以及构建更加强大的预演习的神经网络模型；

推进无监督学习和半监督学习，须要考虑利用少量人类知识加强学习能力以及构建跨措辞的embedding的新方法；

须要更加有效地表示多任务学习和迁移学习在NLP任务中的效能，提升强化学习在NLP任务的浸染，比如在自动客服的多轮对话中的运用；

有效的篇章级建模或者多轮会话建模和多轮语义剖析；

要在系统设计中考虑用户的成分，实现用户建模和个性化的输出；