一种基于语义和统计特征的中文文本特征表示方法

被引:8
作者
赵鹏
耿焕同
蔡庆生
机构
[1] 中国科学技术大学计算机系
基金
安徽省自然科学基金;
关键词
向量空间模型; 本体论; 知网; 词共现;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
基于关键词集的中文文本特征表示方法难以准确表示文本语义信息,从而导致聚类质量较差.为了解决这个问题,本文将本体论和词共现模型的思想引入到中文文本的特征表示中,并在此基础上提出了一种基于语义和统计特征的中文文本特征表示方法.本方法在统计特征的基础上加入了基于知网和特征项共现的语义特征,实验结果表明该方法更加准确地表示了中文文本的语义信息,使得中文文本自动聚类的质量提高了近18%.
引用
收藏
页码:1311 / 1313
页数:3
相关论文
共 5 条
[1]   一种高效的用于文本聚类的无监督特征选择算法 [J].
刘涛 ;
吴功宜 ;
陈正 ;
不详 .
计算机研究与发展 , 2005, (03) :381-386
[2]   基于Bayes潜在语义模型的半监督Web挖掘 [J].
宫秀军 ;
史忠植 .
软件学报, 2002, (08) :1508-1514
[3]   基于模糊概念图的文档聚类及其在Web中的应用 [J].
陈宁 ;
陈安 ;
周龙骧 ;
贾维嘉 ;
罗三定 .
软件学报, 2002, (08) :1598-1605
[4]   基于义原同现频率的汉语词义排歧方法 [J].
杨尔弘 ;
张国清 ;
张永奎 .
计算机研究与发展, 2001, (07) :833-838
[5]  
Semi-supervised Web miningbased on bayes latent semantic model. Gong Xiu-jun,Shi Zhong-zhi. Journal of Software . 2002