学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种基于语义和统计特征的中文文本特征表示方法
被引:8
作者
:
论文数:
引用数:
h-index:
机构:
赵鹏
论文数:
引用数:
h-index:
机构:
耿焕同
蔡庆生
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学技术大学计算机系
蔡庆生
机构
:
[1]
中国科学技术大学计算机系
来源
:
小型微型计算机系统
|
2007年
/ 07期
基金
:
安徽省自然科学基金;
关键词
:
向量空间模型;
本体论;
知网;
词共现;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
基于关键词集的中文文本特征表示方法难以准确表示文本语义信息,从而导致聚类质量较差.为了解决这个问题,本文将本体论和词共现模型的思想引入到中文文本的特征表示中,并在此基础上提出了一种基于语义和统计特征的中文文本特征表示方法.本方法在统计特征的基础上加入了基于知网和特征项共现的语义特征,实验结果表明该方法更加准确地表示了中文文本的语义信息,使得中文文本自动聚类的质量提高了近18%.
引用
收藏
页码:1311 / 1313
页数:3
相关论文
共 5 条
[1]
一种高效的用于文本聚类的无监督特征选择算法
[J].
刘涛
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院
刘涛
;
论文数:
引用数:
h-index:
机构:
吴功宜
;
陈正
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院
陈正
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院
不详
.
计算机研究与发展 ,
2005,
(03)
:381
-386
[2]
基于Bayes潜在语义模型的半监督Web挖掘
[J].
宫秀军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
宫秀军
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
史忠植
.
软件学报,
2002,
(08)
:1508
-1514
[3]
基于模糊概念图的文档聚类及其在Web中的应用
[J].
陈宁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
陈宁
;
论文数:
引用数:
h-index:
机构:
陈安
;
周龙骧
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
周龙骧
;
贾维嘉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
贾维嘉
;
罗三定
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
罗三定
.
软件学报,
2002,
(08)
:1598
-1605
[4]
基于义原同现频率的汉语词义排歧方法
[J].
杨尔弘
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系!太原,上海师范大学计算中心!上海,山西大学计算机科学系!太原
杨尔弘
;
论文数:
引用数:
h-index:
机构:
张国清
;
张永奎
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系!太原,上海师范大学计算中心!上海,山西大学计算机科学系!太原
张永奎
.
计算机研究与发展,
2001,
(07)
:833
-838
[5]
Semi-supervised Web miningbased on bayes latent semantic model. Gong Xiu-jun,Shi Zhong-zhi. Journal of Software . 2002
←
1
→
共 5 条
[1]
一种高效的用于文本聚类的无监督特征选择算法
[J].
刘涛
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院
刘涛
;
论文数:
引用数:
h-index:
机构:
吴功宜
;
陈正
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院
陈正
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
南开大学信息技术科学学院
不详
.
计算机研究与发展 ,
2005,
(03)
:381
-386
[2]
基于Bayes潜在语义模型的半监督Web挖掘
[J].
宫秀军
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
宫秀军
;
史忠植
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院计算技术研究所智能信息处理开放实验室
史忠植
.
软件学报,
2002,
(08)
:1508
-1514
[3]
基于模糊概念图的文档聚类及其在Web中的应用
[J].
陈宁
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
陈宁
;
论文数:
引用数:
h-index:
机构:
陈安
;
周龙骧
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
周龙骧
;
贾维嘉
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
贾维嘉
;
罗三定
论文数:
0
引用数:
0
h-index:
0
机构:
中国科学院研究生院信息学院
罗三定
.
软件学报,
2002,
(08)
:1598
-1605
[4]
基于义原同现频率的汉语词义排歧方法
[J].
杨尔弘
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系!太原,上海师范大学计算中心!上海,山西大学计算机科学系!太原
杨尔弘
;
论文数:
引用数:
h-index:
机构:
张国清
;
张永奎
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系!太原,上海师范大学计算中心!上海,山西大学计算机科学系!太原
张永奎
.
计算机研究与发展,
2001,
(07)
:833
-838
[5]
Semi-supervised Web miningbased on bayes latent semantic model. Gong Xiu-jun,Shi Zhong-zhi. Journal of Software . 2002
←
1
→