基于量化同义词关系的改进特征词提取方法

被引:5
作者
徐建民 [1 ]
刘清江 [1 ]
付婷婷 [1 ]
戴旭 [2 ]
机构
[1] 河北大学数学与计算机学院
[2] 河北大学传媒实验教学中心
关键词
特征提取; TF-IDF; 同义词; 知网; 同现概率;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性.
引用
收藏
页码:97 / 101
页数:5
相关论文
共 9 条
[1]   基于同义词词林的文本特征选择与加权研究 [J].
吕震宇 ;
林永民 ;
赵爽 ;
朱卫东 .
情报杂志, 2008, (05) :130-132
[2]   文本分类中词语权重计算方法的改进与应用 [J].
熊忠阳 ;
黎刚 ;
陈小莉 ;
陈伟 .
计算机工程与应用, 2008, (05) :187-189
[3]   基于词语关联的文本特征词提取方法 [J].
廖浩 ;
李志蜀 ;
王秋野 ;
张意 .
计算机应用, 2007, (12) :3009-3012
[4]   词语相似度计算研究 [J].
秦春秀 ;
赵捧未 ;
刘怀亮 .
情报理论与实践, 2007, (01) :105-108
[5]   特征词提取中同义处理的新方法 [J].
邹娟 ;
周经野 ;
邓成 ;
高南莎 .
中文信息学报, 2005, (06) :46-51
[6]   文本分类中的特征选取 [J].
刘丽珍 ;
宋瀚涛 .
计算机工程, 2004, (04) :14-15+175
[7]   一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[8]   文档中词语权重计算方法的改进 [J].
鲁松 ;
李晓黎 ;
白硕 ;
王实 .
中文信息学报, 2000, (06) :8-13+20
[9]  
同义词词林.[M].梅家驹;竺一鸣;高蕴琦;殷鸿翔 编.上海辞书出版社.1983,