首页 百科知识 人工智能:实现关键是自然语言处理

人工智能:实现关键是自然语言处理

时间:2024-01-08 百科知识 版权反馈
【摘要】:自然语言处理,在英语中被简称为NLP,是人工智能的一个子领域,可简单理解为使机器能理解诸如汉语、英语等人类语言的技术。自然语言尽管是人类智慧的结晶,但在自然语言处理方面,却属于人工智能之中最大的难题之一。只有通过采用自然语言处理,才能让机器具有理解人类语言的能力,从而实现建立在自然语言基础上的人机交互。自然语言处理是计算机科学、人工智能、语言学之间的相互作用的领域。

人工智能:实现关键是自然语言处理

自然语言处理(也称为自然语言理解)技术的探索,可以追溯到20世纪40年代。该技术是计算机出现后才有的一种新技术,随着计算机的不断发展,相关人员这方面的探索也取得了一系列进展。到近20年,随着互联网技术的发展,自然语言处理技术得到长足发展,有力促进了网络核心能力的增强。比如互联网的信息检索能力。在刚开始时,人们在搜索引擎中输入关键词时,所得到的结果往往是大量与所需无关的信息。到后来,这种现象越来越少,所搜索到的基本上都是最贴近搜索者需求的信息。这种搜索质量的不断提升,就是自然语言处理技术不断改进的结果。

自然语言处理,在英语中被简称为NLP(Natural Language Processing),是人工智能的一个子领域,可简单理解为使机器能理解诸如汉语、英语等人类语言的技术。比如,一台机器如果既懂汉语又懂英语,那么它就可以在两者之间充任翻译。再如,如果电视机能理解观众的语言,那么观众就可以不用按钮而直接通过说话来遥控电视机,选择自己喜爱的节目。自然语言处理所涉及的范畴主要包括文本朗读、语音合成、语音识别、自动分词、词性标注、句法分析、自然语言生成、文本分类、信息检索、信息抽取、文字校对、问答系统、机器翻译、自动摘要和文字蕴涵等主要方面。

自然语言尽管是人类智慧的结晶,但在自然语言处理方面,却属于人工智能之中最大的难题之一。这些难题主要体现在单词的边界界定、词义的消歧、句法的模糊性、有瑕疵的或不规范的输入和语言行为与计划等方面。

要实现自然语言在机器上理解和生成是非常困难的,原因在于自然语言本身存在着各种各样的歧义性或多义性。以汉文为例。一个汉文文本是由字、标点符号等组成的一个书面表达整体。字可以组成词,再由词组成词组,进而是句子、段、章、篇。在这些组成中,看似一样的一段字符串,在不同的场景或语境下,可以有不同的理解,生成不同的意义。一般情况下,可以设置不同的场景、语境的规定来解决语言歧义。但是,消除歧义,需要大量的知识并通过推理才能完成。怎样将这些知识加以收集和整理,并以合适的形式将它们存入计算机系统中,有效地利用它们来消除歧义,是繁巨困难的工作。

有业内人士指出,自然语言处理,今后可朝着两个互补式的方向发展:“大规模语言数据的分析处理能力”和“自然的人—机器交互方式”。

大规模语言数据的分析处理能力,指的是建立在自然语言处理上对语言信息进行获取、分析、推理和整合的能力。这类应用可涉及制造、农业能源金融和服务等各个行业。以智能制造业为例。这类产业在产品制造过程中,在工艺、设计、加工和销售等各个环节,会产生大量数据,其中很大一部分都是以自然语言的方式存在的。要想实现生产组织全过程的正确决策,关键要自动分析并理解这些语言数据。而用机器来从事这些事务,就比人工具有信息全面、响应快速的特点,从而能迅速、及时地服务于人工决策。不单是智能制造领域,对于其他如农业、能源、金融和医疗等领域来说,自然语言处理,将会是提升自身竞争力的重要技术支撑。(www.xing528.com)

自然的人—机器交互方式指的是,建立在自然语言处理基础上的人与机器之间的交互方式,将自然语言作为人—机器交互的自然接口。目前,在人工智能使用方面,通常都是先赋予产品某项功能。这种功能是由事先专门为机器设计的语言编写程序来实现的。当用户在使用该产品的这项功能时,需先进行按键选择,让产品领会并执行用户的指令。

通常的情形是,人们在开发或使用机器时,都需要一套专门的交流语言或方式。不同的机器,通常要使用不同的语言或方式。这就意味着,为了开发或使用各种类型的机器,人们就要学习不同的语言。这对于开发者来说,是一个非常大的负担。不同的机器有不同的交互方式,随着机器在社会生产和生活当中被广泛使用,人们不断学习不同大量语言的行为就成为不可能。这严重影响了人们对机器的开发与使用。如果使用统一的交互方式,使用人类的自然语言,就成为一种极佳的选择。自然语言是人类生活中最为自然且方便的交流方式,不仅不容易出错,还能体现出每个人的个性。只有通过采用自然语言处理,才能让机器具有理解人类语言的能力,从而实现建立在自然语言基础上的人机交互

从技术层面上来讲,经过几十年的发展,NLP的主流已经转到统计的模型。不过,作为统计方法之一的人工神经网络在NLP领域并没有受到重视。在这方面,最早应用的是语言模型。2003年,加拿大蒙特利尔大学教授Yoshua Bengio等人提出了用embedding的方法将词映射到一个矢量表示空间,再用非线性神经网络来表示N-Gram模型。NEC美国研究院是世界上最早将深度学习用于NLP研究工作的机构。该机构于2008年开始采用embedding和多层一维卷积的结构,用于解决POS Tagging、Chunking等典型NLP问题。他们将同一个模型用于不同任务,都取得了相当显著的成果。

自20世纪90年代开始,自然语言处理领域就发生了两个明显的变化:要求自然处理系统能够处理大规模的真实文本,一改过去只能处理很少的词条和句子的系统;对系统并不要求对自然语言文本进行深层的理解,只要求能从中抽取如提取索引词等有用的信息。同时,重视和加强大规模真实语料库的研制和大规模、信息丰富的词典的编制工作两个基础性工作。

自然语言处理是计算机科学、人工智能、语言学之间的相互作用的领域。目前,它还面临着很多挑战。但可以相信,随着人工神经技术的进一步发展,将来的机器将会变得越来越聪明,能引导人工智能应用深入社会生活的方方面面。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈