机器之心报道
编辑:泽南、小舟
NLP正在推动人工智能进入激动人心的新时代。
当前人工智能领域热度最高的方向就是预训练大模型了,很多人相信,这项研究已在通用人工智能领域初显成效。
自然语言处理领域著名学者,斯坦福大学教授克里斯托弗曼宁(ChristopherManning)近期在美国人文与科学学院(AAAS)期刊的AISociety特刊上发表了题为《HumanLanguageUnderstandingReasoning》的文章,探讨了语义、语言理解的本质,展望了大模型的未来。
曼宁认为,随着NLP领域的技术突破,我们或许已在通用人工智能(Artificialgeneralintelligence,AGI)方向上迈出了坚定的一步。
摘要
在过去十年中,简单的神经网络计算方式在自然语言处理方面取得了巨大而令人惊讶的突破,人们在超大规模情况下复制了成功,并在大量数据上进行了训练。由此产生的预训练语言模型,如BERT和GPT-3,提供了强大的通用语言理解和生成基础,可以轻松适应许多理解、写作和推理任务。
这些模型展示了一种更为通用的人工智能形式的初步迹象,这可能会在感知体验领域产生强大的基础模型,而不仅仅局限于语言。
NLP领域的四个时代
当科学家思考人工智能时,大多会首先想到建模或重建单个人脑的能力。不过,现代人类智慧远不止单个大脑的智能。
人类的语言很强大,并且对我们的物种产生了深远影响,因为它为人群整体提供了一种将大脑联网的方式。一个人可能并不比我们的黑猩猩或倭黑猩猩的近亲聪明太多。这些猿类已被证明拥有人类智能的许多标志性技能,例如使用工具和计划。此外,它们的短期记忆力甚至比我们强。
人类发明语言的时间也许永远是个谜,但可以相对肯定的是,在地球生命漫长的进化史中,人类直到最近才发展出语言。原猴、猴子和猿类的共同祖先可以追溯到大约万年前。人类大约在万年前与黑猩猩分离,而人类语言的历史通常被认为只有几十万年。
人类发展了语言后,交流的力量让智人迅速超越其他生物,尽管我们没有大象那么强壮,也没有猎豹那么快。直到最近,人类才发明了文字(可能仅在五千多年前),让知识可以跨越时空界限进行交流。在短短几千年时间里,这种信息共享机制将我们从青铜时代带到了今天的智能手机。允许人类之间进行理性讨论和信息分发的高保真代码,允许复杂社会的文化演变,催生着现代技术背后的知识。语言的力量是人类社会智能的基础,在人工智能工具增强人类能力的未来世界中,语言将继续发挥重要作用。
由于这些原因,自然语言处理(NLP)领域与人工智能的最早发展同步出现。事实上,机器翻译NLP问题的初步工作,包括年著名的Georgetown-IBM实验,实现了史上首例机器翻译,略早于年人工智能」一词的创造。在本文中,我简要概述了自然语言的历史加工。然后,我描述了NLP最近的戏剧性发展,这些发展来自使用在大量数据上训练的大型人工神经网络模型。我追溯了使用这些技术构建有效NLP系统所取得的巨大进步,并总结了一些关于这些模型实现了什么,以及下一步将走向何方的想法。
迄今为止,自然语言处理的历史大致可以分为四个时代。
第一个时代从年到年。NLP研究始于机器翻译研究。人们想象,翻译可以迅速建立在计算机在二战期间破译密码巨大成功的基础上。冷战时期的双方研究人员都在寻求开发能够转化其他国家科研成果的系统。然而在这个时代的开始,人们对人类语言、人工智能或机器学习的结构几乎一无所知。回想起来,可用的计算量和数据量小得可怜。尽管最初的系统被大肆宣传,但这些系统仅提供了词级翻译查找和一些简单的,不是很有原则的基于规则的机制来处理词的屈折形式(词形变化)和词序。
第二个时代,从年到年,我们见证了一系列NLP演示系统的发展,这些演示系统在处理人类语言中的句法和引用等现象方面表现出复杂性和深度。这些系统包括TerryWinograd的SHRDLU、BillWoods的LUNAR、RogerSchank的系统,如SAM、GaryHendrix的LIFER和DannyBobrow的GUS。这些都是人们手工构建的基于规则的系统,但他们开始建模和使用人类语言理解的一些复杂性。一些系统甚至被部署用于数据库查询等任务。语言学和基于知识的人工智能正在迅速发展,在这个时代的第二个十年里出现了新一代的手工构建系统,它与声明性和语言知识及其程序处理区分开来,并受益于一系列更现代的语言理论的发展。
然而我们的工作方向在年到年间的第三个时代发生了显著变化。在此期间,数字文本变得丰富,最适用的方向是开发能够在大量自然语言内容上实现某种程度语言理解的算法,并利用文本的存在来帮助获得这种能力。这导致该领域围绕NLP的经验机器学习模型在根本上被重新定位,这一方向至今仍占主导地位。
在这个时期初期,我们主要的方法是掌握合理数量的在线文本——当时的文本集合一般在几千万字以下——并从中提取某种模型数据,主要是通过计算特定事实。例如,你可能发现人识别的事物类型在人的位置(如城市、城镇或堡垒)和隐喻概念(如想象力、注意力或本质)之间相当均衡。但是对单词的计数仅能提供语言理解设备,早期从文本集合中学习语言结构的经验尝试相当不成功。这导致该领域的大部分人专注于构建带注释的语言资源,例如标记单词、文本中的人名或公司名称的实例,或树库中句子的语法结构,然后使用监督机器学习技术构建模型,该模型可以在运行时在新文本片段上生成类似的标签。
自年至今,我们扩展了第三个时代的经验方向,但由于引入了深度学习/人工神经网络方法,工作已经发生了巨大的变化。
在新方法中,单词和句子由(数十或千维)实值向量空间中的位置表示,含义或句法的相似性由该空间中的接近度表示。从年到年,深度学习为构建高性能模型提供了一种更强大的方法,其更容易对更远距离的上下文进行建模,并且模型可以更好地泛化到具有相似含义的单词或短语上,因为它们可以利用向量空间中的邻近性,而不是依赖于符号的同一性(例如词形或词性)。然而,该方法在构建监督机器学习模型以执行特定分析任务方面没有改变。
在年,一切都发生了变化,超大规模自监督(self-supervised)神经网络学习的第一个重大成功就在NLP上。在这种方法中,系统可以通过接触大量文本(现在通常是数十亿字)来学习大量的语言和世界知识。实现这一点的自监督方法是让AI系统从文本中自行创建预测挑战,例如在给定先前单词的情况下连续识别文本中的每个「下一单词」,或填充文本中遮掩的单词或短语。通过数十亿次重复这样的预测任务并从错误中学习,模型在下一次给定类似的文本上下文时会做得更好,积累了对语言和世界的一般知识,然后可以将这些知识部署到更多人们感兴趣的任务中,例如问答或文本分类。
为什么大模型是突破
事后看来,大规模自监督学习方法的发展很可能被视为一次革命,第三个时代可能会延长到年。预训练自监督方法的影响是一个突破:现在我们可以在大量未标记的人类语言材料上训练,生成一个大型预训练模型,其可以很容易地通过微调或提示进行调整,在各种自然语言理解和生成任务上提供强大的结果。现在,人们对NLP的进步和
转载请注明:http://www.0431gb208.com/sjszyzl/4583.html