中文短文本自动分类中的汉字特征优化研究

被引:4
作者
王昊 [1 ,2 ]
邓三鸿 [1 ,2 ]
苏新宁 [1 ,2 ]
机构
[1] 南京大学信息管理学院
[2] 南京大学江苏省数据工程与知识服务重点实验室
关键词
短文本; 文本分类; 汉字特征; 自动分类; 优化;
D O I
10.16353/j.cnki.1000-7490.2015.06.024
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
采用含语义的词语或篇幅更长的语言片段作为中文短文本的特征描述存在明显的可操作性问题。文章综合探讨了汉字特征在中文短文本分类计算中的可行性以及影响规律,比较了关键词、词语和汉字的类目区分能力,认为后者的分类效果略低于篇幅大的语言片段,但其具有可计算性强和文本覆盖率高的优点;基于类现频次和信息增益复合方法对汉字特征进行了筛选,总结了汉字特征数量减少对分类效果的影响规律;分析了不同特征权重设置对汉字特征分类效果的影响及其原因,认为汉字在词语中的位置参数及其频次参数的有效结合可以在一定程度上提高汉字特征的分类效果。
引用
收藏
页码:121 / 127
页数:7
相关论文
共 16 条