一种基于语义和统计特征的中文文本特征表示方法

被引：8

作者：

赵鹏

耿焕同

蔡庆生

机构：

[1] 中国科学技术大学计算机系

来源：

小型微型计算机系统 | 2007年 / 07期

基金：

安徽省自然科学基金;

关键词：

向量空间模型; 本体论; 知网; 词共现;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

基于关键词集的中文文本特征表示方法难以准确表示文本语义信息,从而导致聚类质量较差.为了解决这个问题,本文将本体论和词共现模型的思想引入到中文文本的特征表示中,并在此基础上提出了一种基于语义和统计特征的中文文本特征表示方法.本方法在统计特征的基础上加入了基于知网和特征项共现的语义特征,实验结果表明该方法更加准确地表示了中文文本的语义信息,使得中文文本自动聚类的质量提高了近18%.

引用

页码：1311 / 1313

页数：3

共 5 条

[1] 一种高效的用于文本聚类的无监督特征选择算法 [J].