中文短文本自动分类中的汉字特征优化研究

被引：4

作者：

王昊 ^{[1
,2
]}

邓三鸿 ^{[1
,2
]}

苏新宁 ^{[1
,2
]}

机构：

[1] 南京大学信息管理学院

[2] 南京大学江苏省数据工程与知识服务重点实验室

来源：

情报理论与实践 | 2015年 / 38卷 / 06期

关键词：

短文本; 文本分类; 汉字特征; 自动分类; 优化;

D O I：

10.16353/j.cnki.1000-7490.2015.06.024

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果。

引用

页码：121 / 127

页数：7

共 16 条

[1] 基于概念特征的语义文本分类
林伟
孟凡荣
王志晓
[J]. 计算机工程与应用, 2011, 47 (28) : 139 - 142
[2] 基于机器学习的中文书目自动分类研究
王昊
严明
苏新宁
[J]. 中国图书馆学报, 2010, 36 (06) : 28 - 39
[3] 基于领域词语本体的短文本分类
宁亚辉
樊兴华
吴渝
[J]. 计算机科学, 2009, 36 (03) : 142 - 145
[4] 基于类别关键词的突发事件新闻文本分类方法
张永奎
李红娟
[J]. 计算机应用, 2008, (S1) : 139 - 140+143
[5] 一个基于字特征的文本分类模型
王梦云
王素格
[J]. 计算机工程与应用, 2004, (13) : 64 - 65+191
[6] Text feature selection for sentiment classification of Chinese online reviews
Wang, Hongwei
Yin, Pei
Yao, Jiani
Liu, James N. K.
[J]. JOURNAL OF EXPERIMENTAL & THEORETICAL ARTIFICIAL INTELLIGENCE, 2013, 25 (04) : 425 - 439
[7] Improving Text Classification Performance Using PCA and Recall-Precision Criteria
Zahedi, M.
Sorkhi, A. Ghanbari
[J]. ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING, 2013, 38 (08) : 2095 - 2102
[8] Class-indexing-based term weighting for automatic text classification[J] . Fuji Ren,Mohammad Golam Sohrab.Information Sciences . 2013
[9] A lexicon model for deep sentiment analysis and opinion mining applications
Maks, Isa
Vossen, Piek
[J]. DECISION SUPPORT SYSTEMS, 2012, 53 (04) : 680 - 688
[10] Automated text classification using a dynamic artificial neural network model
Ghiassi, M.
Olschimke, M.
Moon, B.
Arnaudo, P.
[J]. EXPERT SYSTEMS WITH APPLICATIONS, 2012, 39 (12) : 10967 - 10976

← 1 2 →