学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
基于量化同义词关系的改进特征词提取方法
被引:5
作者
:
徐建民
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机学院
河北大学数学与计算机学院
徐建民
[
1
]
刘清江
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机学院
河北大学数学与计算机学院
刘清江
[
1
]
付婷婷
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学数学与计算机学院
河北大学数学与计算机学院
付婷婷
[
1
]
戴旭
论文数:
0
引用数:
0
h-index:
0
机构:
河北大学传媒实验教学中心
河北大学数学与计算机学院
戴旭
[
2
]
机构
:
[1]
河北大学数学与计算机学院
[2]
河北大学传媒实验教学中心
来源
:
河北大学学报(自然科学版)
|
2010年
/ 30卷
/ 01期
关键词
:
特征提取;
TF-IDF;
同义词;
知网;
同现概率;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
提出一种基于量化同义词关系的改进的TF-IDF文本特征词提取方法.该方法将在同一文本中出现的某个词的同义词做为一个集合,在传统TF-IDF方法计算的词语权重的基础上对同义词集合中的词语及其相关词进行权重调整,通过相似度对同义词集合中的词语进行了合并加权.实验证明该方法对文本中的同义词及其相关词进行了有效处理,提高了文本特征词提取的准确性.
引用
收藏
页码:97 / 101
页数:5
相关论文
共 9 条
[1]
基于同义词词林的文本特征选择与加权研究
[J].
吕震宇
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
吕震宇
;
林永民
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
林永民
;
赵爽
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
赵爽
;
朱卫东
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
河北理工大学经济管理学院
朱卫东
.
情报杂志,
2008,
(05)
:130
-132
[2]
文本分类中词语权重计算方法的改进与应用
[J].
熊忠阳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
熊忠阳
;
黎刚
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
黎刚
;
陈小莉
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
陈小莉
;
陈伟
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
陈伟
.
计算机工程与应用,
2008,
(05)
:187
-189
[3]
基于词语关联的文本特征词提取方法
[J].
廖浩
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
廖浩
;
论文数:
引用数:
h-index:
机构:
李志蜀
;
王秋野
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
王秋野
;
论文数:
引用数:
h-index:
机构:
张意
.
计算机应用,
2007,
(12)
:3009
-3012
[4]
词语相似度计算研究
[J].
秦春秀
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学经济管理学院
秦春秀
;
论文数:
引用数:
h-index:
机构:
赵捧未
;
刘怀亮
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学经济管理学院
刘怀亮
.
情报理论与实践,
2007,
(01)
:105
-108
[5]
特征词提取中同义处理的新方法
[J].
论文数:
引用数:
h-index:
机构:
邹娟
;
论文数:
引用数:
h-index:
机构:
周经野
;
邓成
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学信息工程学院
邓成
;
高南莎
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学信息工程学院
高南莎
.
中文信息学报,
2005,
(06)
:46
-51
[6]
文本分类中的特征选取
[J].
刘丽珍
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系
刘丽珍
;
宋瀚涛
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系
宋瀚涛
.
计算机工程,
2004,
(04)
:14
-15+175
[7]
一种基于字同现频率的汉语文本主题抽取方法
[J].
马颖华
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
马颖华
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
王永成
;
苏贵洋
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
苏贵洋
;
张宇萌
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
张宇萌
.
计算机研究与发展,
2003,
(06)
:874
-878
[8]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[9]
同义词词林.[M].梅家驹;竺一鸣;高蕴琦;殷鸿翔 编.上海辞书出版社.1983,
←
1
→
共 9 条
[1]
基于同义词词林的文本特征选择与加权研究
[J].
吕震宇
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
吕震宇
;
林永民
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
林永民
;
赵爽
论文数:
0
引用数:
0
h-index:
0
机构:
河北理工大学经济管理学院
河北理工大学经济管理学院
赵爽
;
朱卫东
论文数:
0
引用数:
0
h-index:
0
机构:
北京交通大学计算机与信息技术学院
河北理工大学经济管理学院
朱卫东
.
情报杂志,
2008,
(05)
:130
-132
[2]
文本分类中词语权重计算方法的改进与应用
[J].
熊忠阳
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
熊忠阳
;
黎刚
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
黎刚
;
陈小莉
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
陈小莉
;
陈伟
论文数:
0
引用数:
0
h-index:
0
机构:
重庆大学计算机学院
陈伟
.
计算机工程与应用,
2008,
(05)
:187
-189
[3]
基于词语关联的文本特征词提取方法
[J].
廖浩
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
廖浩
;
论文数:
引用数:
h-index:
机构:
李志蜀
;
王秋野
论文数:
0
引用数:
0
h-index:
0
机构:
四川大学计算机学院
王秋野
;
论文数:
引用数:
h-index:
机构:
张意
.
计算机应用,
2007,
(12)
:3009
-3012
[4]
词语相似度计算研究
[J].
秦春秀
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学经济管理学院
秦春秀
;
论文数:
引用数:
h-index:
机构:
赵捧未
;
刘怀亮
论文数:
0
引用数:
0
h-index:
0
机构:
西安电子科技大学经济管理学院
刘怀亮
.
情报理论与实践,
2007,
(01)
:105
-108
[5]
特征词提取中同义处理的新方法
[J].
论文数:
引用数:
h-index:
机构:
邹娟
;
论文数:
引用数:
h-index:
机构:
周经野
;
邓成
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学信息工程学院
邓成
;
高南莎
论文数:
0
引用数:
0
h-index:
0
机构:
湘潭大学信息工程学院
高南莎
.
中文信息学报,
2005,
(06)
:46
-51
[6]
文本分类中的特征选取
[J].
刘丽珍
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系
刘丽珍
;
宋瀚涛
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系
宋瀚涛
.
计算机工程,
2004,
(04)
:14
-15+175
[7]
一种基于字同现频率的汉语文本主题抽取方法
[J].
马颖华
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
马颖华
;
王永成
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
王永成
;
苏贵洋
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
苏贵洋
;
张宇萌
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
张宇萌
.
计算机研究与发展,
2003,
(06)
:874
-878
[8]
文档中词语权重计算方法的改进
[J].
论文数:
引用数:
h-index:
机构:
鲁松
;
论文数:
引用数:
h-index:
机构:
李晓黎
;
论文数:
引用数:
h-index:
机构:
白硕
;
论文数:
引用数:
h-index:
机构:
王实
.
中文信息学报,
2000,
(06)
:8
-13+20
[9]
同义词词林.[M].梅家驹;竺一鸣;高蕴琦;殷鸿翔 编.上海辞书出版社.1983,
←
1
→