人工智能培训系列:R语言NLP的中文单词特征处理 1

更新时间：2022-12-12

人工智能

在NLP在情感分析或相关分类分析中，许多文章引用了一系列好论文。然而，对中文名称特征的处理相对较少。

对于中文处理，可以看作是两个方面，一个是中文单词，另一个是将文档中的中文单词作为稀疏矩阵处理的特征。

文档转换为多个特征对应的稀舒矩阵处理，请参考R语言NLP中文单词特征处理 2

第一个中文分词：

中文分词不同于英文单词。它还设计了由多个单词组成的单词。此时，它涉及到中文分词。Jieba是中文分词的优秀工具。

以Python为例子（R还有其他语言，如语言jieba等包）。

import jieba

cn_string=2018年底将于2018年底推出keras欢迎参加培训。

jieba_list=jieba.cut(cn_string)

tokenslist=[]

for seg in jieba_list:

tokenslist.append(seg)

print (tokenslist)

输出如下:

[涛, 德, 顾问, 学院, 即将, 在, 2018, 年底, 推出, keras, 培训, 欢迎, 参加, 。]

可以看出效果还是不错的，英语自动转化为小写。当然结果不是很完美，可能需要数字处理。标点符号处理。但是在帮助下R，或者Python等待工具并不难。毕竟，最重要的分词问题是可以解决的。

当然，如果你想看到陶德咨询学院作为一个整体名称，你需要定制字典(jieba支持此功能)。

此外，该软件还支持，具体信息可以访问更多的分词模式等功能github上的文档

推荐课程

热门资讯