首页 理论教育 使用tmcn.word2vec和word2vec注意的问题指南

使用tmcn.word2vec和word2vec注意的问题指南

时间:2023-06-28 理论教育 版权反馈
【摘要】:1)word2vec的自编译函数在使用时也需要加载tmcn.word2vec包,否则会出现以下error:Error in.Ctmcn.word2vec与word2vec自编译互补。3)tmcn.word2vec与word2vec自编译中两个word2vec生成不一样的语料库,同时执行distance函数之后也计算不一样的词距离。4)最佳的使用tmcn.word2vec步骤:加载包、执行自编译函数、设定随机数这很关键,会影响输出结果)、用自编译函数来执行分析任务。

使用tmcn.word2vec和word2vec注意的问题指南

1)word2vec的自编译函数在使用时也需要加载tmcn.word2vec包,否则会出现以下error:

Error in.C("CWrapper_word2vec",train_file=as.character(train_file),

C symbol name"CWrapper_word2vec"not in load table(www.xing528.com)

2)tmcn.word2vec与word2vec自编译互补。在require(tmcn.word2vec)之后,可以直接调用word2vec函数,自编译函数也可以调节参数,而且有一个特殊的功能,可以自行聚类,并且可以通过cbow=0的参数选择使用CBOW模型还是Skip-gram模型,通过binary=0参数可以调整输出的是txt文件,而tmcn.word2vec包中输出只有.bin文件,难以读取。

3)tmcn.word2vec与word2vec自编译中两个word2vec生成不一样的语料库,同时执行distance函数之后也计算不一样的词距离。语料库不同的原因,也许是因为CBOW模型与Skip-gram模型在抽取近邻词的时候采用随机抽样的方法,所以会产生不一样的结果。

4)最佳的使用tmcn.word2vec步骤:加载包(require(tmcn.word2vec))、执行自编译函数(word2vec/distance)、设定随机数(set.seed)这很关键,会影响输出结果)、用自编译函数来执行分析任务(选择模型、是否聚类、是否输出txt文件、词维度和词数量等)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈