首页 理论教育 文本分析流程简介

文本分析流程简介

时间:2023-06-27 理论教育 版权反馈
【摘要】:根据业务需求、数据类型和数据源,可以通过多种方式实现文本分析。词性标注,为识别的标记分配语法类别。文本标记是基于文本数据的内容和相关性为文本数据分配标记的过程。Word2Vec已成为文本标记的首选方法。Word2Vec收集的文本将转换为向量的格式,来提供有关单词的相关信息。

文本分析流程简介

根据业务需求、数据类型和数据源,可以通过多种方式实现文本分析。总共有4个关键步骤:

1.数据采集

文本分析的第一步是从收集要分析的文本开始——定义、筛选、获取和存储原始数据。这些数据可以包含文本文档、网页(博客、新闻等)和在线评论等。数据来源可分为内部渠道获取和外部渠道获取两种。

2.准备数据

获取到数据后,企业必须做好进行分析的准备。必须采用适当的形式来整理数据,以便配合机器学习模型使用。数据的准备工作又分为4个小阶段:

文本清理(Text Cleaning),会删除任何不必要或不需要的信息,如网页上的广告。重新构建文本数据以确保可以在整个系统中以相同的方式读取数据并提高数据的完整性(也称为“文本规范化”)。

标记化(Tokenization),将一系列字符串分解为标记(Token)的片段(如单词、关键字、短语、符号和其他元素)。语义上有意义的片段(如单词)将用于分析。

词性标注(也称为“PoS”),为识别的标记分配语法类别。众所周知的语法类别包括名词、动词、形容词副词

解析基于标记(Token)和PoS模型从文本创建语法结构。解析算法是考虑语法结构的文本语法。具有相同含义但语法结构不同的句子将产生不同的句法结构。(www.xing528.com)

3.数据分析

数据分析是一个分析经预处理后文本数据的过程。机器学习模型可用于分析庞大的数据集,分析结果通常会以JSON格式或CSV/Excel文件形式生成。可以通过多种方式分析数据,两种比较流行的方法是文本提取和文本标记。

简单地说,文本提取是从非结构化文本中识别结构化信息的过程。文本标记是基于文本数据的内容和相关性为文本数据分配标记的过程。

文本标记的两个常见模型是“bag ofwords”和“Word2vec”。

“bag ofwords”方法是最容易理解的方法,不过已经过时并被淘汰了。无论位置和上下文如何,这个方法都只用来计算文本内容中的单词数。这种技术的缺点在于,它没有提供一种从单词理解上下文的方法,具有较高单词数的内容被赋予更高的分数。

Word2Vec已成为文本标记的首选方法。Word2Vec收集的文本将转换为向量的格式,来提供有关单词(包括同义词)的相关信息。例如,术语“man”和“boy”可以密切相关。Word2Vec也理解“humor”(美式拼写)和“humour” (英式拼写),这两个词应该用同样的方式对待。Word2Vec生成相关单词的网格。在神经网络中,单词越接近,彼此之间的关系就越强。这种神经网络允许算法更好地理解单词的上下文,因此数据科学家可以生成更好的内容相关性分析。

4.数据可视化

可视化是将数据转换为有深层次价值信息的过程,以图形、表格和其他直观的表达形式表示数据的过程。市面上有各种各样可供企业使用的商业和开源可视化工具。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈