人工智能培训系列:R语言NLP的中文单词特征处理 1
更新时间:2022-12-12
人工智能
在NLP在情感分析或相关分类分析中,许多文章引用了一系列好论文。然而,对中文名称特征的处理相对较少。
对于中文处理,可以看作是两个方面,一个是中文单词,另一个是将文档中的中文单词作为稀疏矩阵处理的特征。
文档转换为多个特征对应的稀舒矩阵处理,请参考R语言NLP中文单词特征处理 2
第一个中文分词:
中文分词不同于英文单词。它还设计了由多个单词组成的单词。此时,它涉及到中文分词。Jieba是中文分词的优秀工具。
以Python为例子(R还有其他语言,如语言jieba等包)。
import jieba
cn_string=2018年底将于2018年底推出keras欢迎参加培训。
jieba_list=jieba.cut(cn_string)
tokenslist=[]
for seg in jieba_list:
tokenslist.append(seg)
print (tokenslist)
输出如下:
[涛, 德, 顾问, 学院, 即将, 在, 2018, 年底, 推出, keras, 培训, 欢迎, 参加, 。]
可以看出效果还是不错的,英语自动转化为小写。当然结果不是很完美,可能需要数字处理。标点符号处理。但是在帮助下R,或者Python等待工具并不难。毕竟,最重要的分词问题是可以解决的。
当然,如果你想看到陶德咨询学院作为一个整体名称,你需要定制字典(jieba支持此功能)。
此外,该软件还支持, 具体信息可以访问更多的分词模式等功能github上的文档
推荐课程
-
唐山现代多元Design全能班
346人 报名小编
-
唐山现代多元Design精英班
393人 报名小编
-
唐山现代艺术设计全能班
373人 报名小编
-
唐山电商课程培训班
331人 报名小编
-
唐山专业盲打指法训练
251人 报名小编