学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
中文短文本自动分类中的汉字特征优化研究
被引:4
作者
:
论文数:
引用数:
h-index:
机构:
王昊
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
邓三鸿
[
1
,
2
]
论文数:
引用数:
h-index:
机构:
苏新宁
[
1
,
2
]
机构
:
[1]
南京大学信息管理学院
[2]
南京大学江苏省数据工程与知识服务重点实验室
来源
:
情报理论与实践
|
2015年
/ 38卷
/ 06期
关键词
:
短文本;
文本分类;
汉字特征;
自动分类;
优化;
D O I
:
10.16353/j.cnki.1000-7490.2015.06.024
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果。
引用
收藏
页码:121 / 127
页数:7
相关论文
共 16 条
[1]
基于概念特征的语义文本分类
论文数:
引用数:
h-index:
机构:
林伟
孟凡荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国矿业大学计算机科学与技术学院
孟凡荣
王志晓
论文数:
0
引用数:
0
h-index:
0
机构:
中国矿业大学计算机科学与技术学院
王志晓
[J].
计算机工程与应用,
2011,
47
(28)
: 139
-
142
[2]
基于机器学习的中文书目自动分类研究
论文数:
引用数:
h-index:
机构:
王昊
论文数:
引用数:
h-index:
机构:
严明
苏新宁
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学信息管理系
南京大学信息管理系
苏新宁
[J].
中国图书馆学报,
2010,
36
(06)
: 28
-
39
[3]
基于领域词语本体的短文本分类
论文数:
引用数:
h-index:
机构:
宁亚辉
樊兴华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
樊兴华
吴渝
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
吴渝
[J].
计算机科学,
2009,
36
(03)
: 142
-
145
[4]
基于类别关键词的突发事件新闻文本分类方法
论文数:
引用数:
h-index:
机构:
张永奎
论文数:
引用数:
h-index:
机构:
李红娟
[J].
计算机应用,
2008,
(S1)
: 139
-
140+143
[5]
一个基于字特征的文本分类模型
王梦云
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王梦云
王素格
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王素格
[J].
计算机工程与应用,
2004,
(13)
: 64
-
65+191
[6]
Text feature selection for sentiment classification of Chinese online reviews
Wang, Hongwei
论文数:
0
引用数:
0
h-index:
0
机构:
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Wang, Hongwei
Yin, Pei
论文数:
0
引用数:
0
h-index:
0
机构:
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Yin, Pei
Yao, Jiani
论文数:
0
引用数:
0
h-index:
0
机构:
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Yao, Jiani
Liu, James N. K.
论文数:
0
引用数:
0
h-index:
0
机构:
Hong Kong Polytech Univ, Dept Comp, Hong Kong, Hong Kong, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Liu, James N. K.
[J].
JOURNAL OF EXPERIMENTAL & THEORETICAL ARTIFICIAL INTELLIGENCE,
2013,
25
(04)
: 425
-
439
[7]
Improving Text Classification Performance Using PCA and Recall-Precision Criteria
论文数:
引用数:
h-index:
机构:
Zahedi, M.
论文数:
引用数:
h-index:
机构:
Sorkhi, A. Ghanbari
[J].
ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING,
2013,
38
(08)
: 2095
-
2102
[8]
Class-indexing-based term weighting for automatic text classification[J] . Fuji Ren,Mohammad Golam Sohrab.Information Sciences . 2013
[9]
A lexicon model for deep sentiment analysis and opinion mining applications
Maks, Isa
论文数:
0
引用数:
0
h-index:
0
机构:
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Maks, Isa
Vossen, Piek
论文数:
0
引用数:
0
h-index:
0
机构:
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Vossen, Piek
[J].
DECISION SUPPORT SYSTEMS,
2012,
53
(04)
: 680
-
688
[10]
Automated text classification using a dynamic artificial neural network model
Ghiassi, M.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Ghiassi, M.
Olschimke, M.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Olschimke, M.
Moon, B.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Moon, B.
Arnaudo, P.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Arnaudo, P.
[J].
EXPERT SYSTEMS WITH APPLICATIONS,
2012,
39
(12)
: 10967
-
10976
←
1
2
→
共 16 条
[1]
基于概念特征的语义文本分类
论文数:
引用数:
h-index:
机构:
林伟
孟凡荣
论文数:
0
引用数:
0
h-index:
0
机构:
中国矿业大学计算机科学与技术学院
孟凡荣
王志晓
论文数:
0
引用数:
0
h-index:
0
机构:
中国矿业大学计算机科学与技术学院
王志晓
[J].
计算机工程与应用,
2011,
47
(28)
: 139
-
142
[2]
基于机器学习的中文书目自动分类研究
论文数:
引用数:
h-index:
机构:
王昊
论文数:
引用数:
h-index:
机构:
严明
苏新宁
论文数:
0
引用数:
0
h-index:
0
机构:
南京大学信息管理系
南京大学信息管理系
苏新宁
[J].
中国图书馆学报,
2010,
36
(06)
: 28
-
39
[3]
基于领域词语本体的短文本分类
论文数:
引用数:
h-index:
机构:
宁亚辉
樊兴华
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
樊兴华
吴渝
论文数:
0
引用数:
0
h-index:
0
机构:
重庆邮电大学计算机科学与技术研究所
吴渝
[J].
计算机科学,
2009,
36
(03)
: 142
-
145
[4]
基于类别关键词的突发事件新闻文本分类方法
论文数:
引用数:
h-index:
机构:
张永奎
论文数:
引用数:
h-index:
机构:
李红娟
[J].
计算机应用,
2008,
(S1)
: 139
-
140+143
[5]
一个基于字特征的文本分类模型
王梦云
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王梦云
王素格
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
王素格
[J].
计算机工程与应用,
2004,
(13)
: 64
-
65+191
[6]
Text feature selection for sentiment classification of Chinese online reviews
Wang, Hongwei
论文数:
0
引用数:
0
h-index:
0
机构:
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Wang, Hongwei
Yin, Pei
论文数:
0
引用数:
0
h-index:
0
机构:
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Yin, Pei
Yao, Jiani
论文数:
0
引用数:
0
h-index:
0
机构:
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Yao, Jiani
Liu, James N. K.
论文数:
0
引用数:
0
h-index:
0
机构:
Hong Kong Polytech Univ, Dept Comp, Hong Kong, Hong Kong, Peoples R China
Tongji Univ, Sch Econ & Management, Shanghai 200092, Peoples R China
Liu, James N. K.
[J].
JOURNAL OF EXPERIMENTAL & THEORETICAL ARTIFICIAL INTELLIGENCE,
2013,
25
(04)
: 425
-
439
[7]
Improving Text Classification Performance Using PCA and Recall-Precision Criteria
论文数:
引用数:
h-index:
机构:
Zahedi, M.
论文数:
引用数:
h-index:
机构:
Sorkhi, A. Ghanbari
[J].
ARABIAN JOURNAL FOR SCIENCE AND ENGINEERING,
2013,
38
(08)
: 2095
-
2102
[8]
Class-indexing-based term weighting for automatic text classification[J] . Fuji Ren,Mohammad Golam Sohrab.Information Sciences . 2013
[9]
A lexicon model for deep sentiment analysis and opinion mining applications
Maks, Isa
论文数:
0
引用数:
0
h-index:
0
机构:
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Maks, Isa
Vossen, Piek
论文数:
0
引用数:
0
h-index:
0
机构:
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Vrije Univ Amsterdam, Fac Arts, NL-1081 HV Amsterdam, Netherlands
Vossen, Piek
[J].
DECISION SUPPORT SYSTEMS,
2012,
53
(04)
: 680
-
688
[10]
Automated text classification using a dynamic artificial neural network model
Ghiassi, M.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Ghiassi, M.
Olschimke, M.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Olschimke, M.
Moon, B.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Moon, B.
Arnaudo, P.
论文数:
0
引用数:
0
h-index:
0
机构:
Santa Clara Univ, Santa Clara, CA 95053 USA
Santa Clara Univ, Santa Clara, CA 95053 USA
Arnaudo, P.
[J].
EXPERT SYSTEMS WITH APPLICATIONS,
2012,
39
(12)
: 10967
-
10976
←
1
2
→