小I问一问
小I最近有点烦恼,之前小I通过努力学习,已经能够辨识图像,但还是听不懂大家在说些什么。
比如:
你们在说什么?
“今天天气怎么样?”该如何回答?
“小I很聪明”是什么意思?小I应该做出开心的表情吗?
看来不仅要听到,还需要理解是什么意思,甚至进一步地进行概括、创造,在不同的语言之间进行切换。这就是自然语言理解需要解决的问题。
目前,我们看到智能机器人可以写诗歌,能够自动问答,进行翻译,分析评论的好坏,将文档按主题分类等,已经拥有了十八般武艺。它是如何练就这一身功夫的呢?一开始它也不是很厉害,它经过了怎样的一场磨炼呢?下面我们来看一看自然语言处理的发展历史。
自然语言处理的历史大致分为两个阶段:一个是从20世纪50年代到70年代,偏重于模拟人类处理语言的方式,包括字、词以及词性、构词法和语法规则的学习,人类试图帮助机器构建出一个拥有巨大规则库的决策系统,根据一定的规则来进行语言的理解等。例如一个简单的句子“小明喜欢猫”,其语法树见下图。
语法树(www.xing528.com)
当句子变长时,这棵“树”将非常复杂,规则众多且可能互相矛盾。因此,在20世纪70年代,基于规则的句法分析无法获得进一步的发展。因此,一些先驱从另外的角度出发,就是从统计学的角度出发,提出“一个句子是否合理,就看看它的可能性大小如何”。
下面这个句子:
“杂交水稻之父”袁隆平及其团队培育的超级杂交稻品种试验田内亩产1 203.36千克。
如果改成下面的语序还可以基本理解:
“杂交水稻之父”袁隆平及其团队超级杂交稻品种培育的亩产1 203.36千克在试验田内。
但如果改成下面这样就比较难理解了:
“杂交水稻之父”团队超级试验田品种袁隆平及其培育的亩产1 203.36千克在内杂交稻。
实际上,不管是字与字还是词与词,它们之间的先后关系的可能性都是不一样的。如果我们按照概率最大的方式进行分词和理解,就会更加接近实际的情况。这就是基于统计的自然语言处理方法,包括语音识别、词性标注和分词等。
自然语言处理的任务包括语音合成、语音识别、中文自动分词、词性标注、句法分析、文本分类、文本挖掘、信息抽取、问答系统、机器翻译、文本情感分析、自动摘要和文字蕴涵。本章主要介绍语音识别、文本分析和自动问答系统的Python实现。
免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。