共 2 条
基于文本集密度的特征词选择与权重计算方法
被引:4
作者:
吴卫华
袁宁
周劲
王洪军
机构:
[1] 山东省智奥电算开发中心
[2] 济南大学信息科学与工程学院
来源:
关键词:
文本分类;
分词;
特征选择;
权重计算方案;
D O I:
暂无
中图分类号:
TP391.1 [文字信息处理];
学科分类号:
摘要:
根据汉语语言自身的特点 ,在基于原有的特征项提取方法基础之上 ,提出了基于文本集密度的特征词选择的思想 ,对于特征项个数和选择进行了界定 ,找出了不损失文本有效信息的最小特征词语集 ,并且利用其中的中间值作为词语权重计算的一部分 ,创造出更为合理的权重计算方案。最后利用一种新的衡量权重好坏的标准———元打分法 ,对文中所提出的方法的正确性和有效性进行了实验和证明。
引用
收藏
页码:11 / 13+52
+52
页数:4
相关论文