首页 理论教育 生成词云图的案例分享

生成词云图的案例分享

时间:2023-06-27 理论教育 版权反馈
【摘要】:使用Python生成词云需要下载并安装第三方模块jieba和wordcloud。jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于搜索引擎构建倒排索引的分词,粒度比较细。jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每个词语,也可以用list转化为list代码示例(分词)。例6_2_ciyun.py词云图的形状使用一个心形图片,如图6-3所示。图6-5词频列表

生成词云图的案例分享

云图是文本分析中比较常见的一种可视化手段,将出现频率高的词字体相对变大,让重点词、关键词一目了然。

使用Python生成词云需要下载并安装第三方模块jieba和wordcloud。

1.jieba

jieba是一个中文分词模块,用来统计词频。如果已经有现成的数据,就不再需要它。在使用之前需要先使用pip安装jieba:

jieba最主要的方法是cut方法:

(1)jieba.cut方法接受两个输入参数:第一个参数为需要分词的字符串;cut_all参数用来控制是否采用全模式。

(2)jieba.cut_for_search方法接受一个参数:需要分词的字符串,该方法适合用于索引擎构建倒排索引的分词,粒度比较细。

(3)jieba.cut以及jieba.cut_for_search返回的结构都是一个可迭代的generator,可以使用for循环来获得分词后得到的每个词语(unicode),也可以用list(jieba.cut(...))转化为list代码示例(分词)。

注意:待分词的字符串可以是gbk字符串、utf-8字符串或者unicode。

2.wordcloud

wordcloud库把词云当作一个WordCloud对象,wordcloud.WordCloud()代表一个文本对应的词云。wordcloud可以根据文本中词语出现的频率等参数绘制词云,其中绘制词云的形状、尺寸和颜色都可以自己设定。在使用之前需要先使用pip安装wordcloud:

WordCloud类的使用:WordCloud类常用的方法如表6-1所示,配置对象常用参数如表6-2所示。

表6-1 WordCloud类常用的方法

(www.xing528.com)

表6-2 WordCloud类配置对象常用参数

案例:选一篇自己喜欢的文章,然后保存为TXT格式,放到工作目录下。本案例选取的文章是知乎网上秋叶大叔的一篇文章:《如何实现财富自由?》。将其内容保存为“caifu.txt”,放在工作目录下,以下是获得这篇文章词云图的过程代码。

例6_2_ciyun.py

词云图的形状使用一个心形图片,如图6-3所示。

另外,可以把背景图设置为任意形状和图片,如果没有合适的照片,也可以用PPT自己画一个合适的形状。

心形的词云效果图如图6-4所示。

图6-3 心形图片

图6-4 心形词云效果图

获得词频列表,如图6-5所示,保存为csv文件。

图6-5 词频列表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈