基于词跨度的中文文本关键词提取及在文本分类中的应用

被引：0

作者：

谢晋

机构：

[1] 浙江工业大学

关键词：

词跨度; 关键词提取; 文本分类; 特征降维; 权重计算;

D O I：

暂无

年度学位：

2011

学位类型：

硕士

导师：

王丽萍;

摘要：

文本关键词提取是文本自动化处理常用的一项关键技术,若能对海量的文本资源进行关键词标注,并按其归纳整理,可实现文本资源的高效管理和便捷使用。常用的关键词提取方法主要是基于统计的方法,此类方法思想简单、便于实际应用。但是,该方法过多地依赖于词频统计,因此提取的关键词中常包含一定量的高频而非关键的噪声词。本文围绕文本关键词提取中的噪声词问题,改进了传统的基于统计的文本关键词提取方法,以提高算法精度,并将改进后的关键词提取方法应用于文本分类的特征降维和特征项权值计算中。本文的主要研究内容包括: (1)为了提高文本关键词提取算法的精度,本文给出了一种基于词跨度的中文文本关键词提取方法。该方法在传统的关键词提取方法中引入词跨度概念,借助词跨度实现对噪声词的准确识别和过滤。实验结果显示:与传统算法相比,该算法在召回率和准确率上有了明显的提高,并且对于不同类型的文本,都具有较为稳定的表现。 (2)文本分类中的特征降维是指通过对特征项进行筛选,达到降低特征空间维度的目的,但由于特征项的数量庞大,对其进行筛选的计算复杂度往往很高。因此,本文采用关键词提取的方式,首先对单个文本中权重过低的特征项进行过滤,减少了参与特征选择的特征项数量。实验证明:该方法在避免大量损失有效特征的基础上,降低了特征降维的计算复杂度。 (3)在文本分类中,准确地表达特征项对其所在文本的重要程度,即特征项权值,对文本类别的区分具有重要影响。因此,针对经典TF*IDF权值计算法对特征项表达不够全面的缺点,本文通过用关键词权重TW替代词频TF,并考虑了特征项与类别之间的关系来对其进行改进,即TW*IDF*CHI。实验结果表明,基于TW*IDF*CHI的分类计算能有效提高分类性能。

引用

页数：60

共 33 条

[1]

个性化网络信息检索系统的研究与实现 [D].

李广建 .

中国科学院研究生院（文献情报中心）,

2002

[2]

Neighbor-weighted K-nearest neighbor for unbalanced text corpus [J].

Tan, SB .

EXPERT SYSTEMS WITH APPLICATIONS, 2005, 28 (04) :667-671

[3]

A comparison of PCA; KPCA and ICA for dimensionality reduction in support vector machine.[J].L.J. Cao;K.S. Chua;W.K. Chong;H.P. Lee;Q.M. Gu.Neurocomputing.2003, 1

[4]

Machine learning in automated text categorization [J].