您好,欢迎访问唐山现代电脑培训学校官网!

186 3153 9995

全国咨询热线

您现在所在位置: 主页 > 行业动态 > 人工智能

人工智能培训系列:R语言NLP的中文单词特征处理 1

更新时间:2022-12-12

人工智能

在NLP在情感分析或相关分类分析中,许多文章引用了一系列好论文。然而,对中文名称特征的处理相对较少。

对于中文处理,可以看作是两个方面,一个是中文单词,另一个是将文档中的中文单词作为稀疏矩阵处理的特征。

文档转换为多个特征对应的稀舒矩阵处理,请参考R语言NLP中文单词特征处理 2

第一个中文分词:

中文分词不同于英文单词。它还设计了由多个单词组成的单词。此时,它涉及到中文分词。Jieba是中文分词的优秀工具。

以Python为例子(R还有其他语言,如语言jieba等包)。

import jieba

cn_string=2018年底将于2018年底推出keras欢迎参加培训。

jieba_list=jieba.cut(cn_string)

tokenslist=[]

for seg in jieba_list:

tokenslist.append(seg)

print (tokenslist)

输出如下:

[涛, 德, 顾问, 学院, 即将, 在, 2018, 年底, 推出, keras, 培训, 欢迎, 参加, 。]

     可以看出效果还是不错的,英语自动转化为小写。当然结果不是很完美,可能需要数字处理。标点符号处理。但是在帮助下R,或者Python等待工具并不难。毕竟,最重要的分词问题是可以解决的。

当然,如果你想看到陶德咨询学院作为一个整体名称,你需要定制字典(jieba支持此功能)。

此外,该软件还支持, 具体信息可以访问更多的分词模式等功能github上的文档

在线客服

ONLINE SERVICE

联系电话

186 3153 9995

返回顶部
冀公网安备13020302001222