基于Bigram的特征词抽取及自动分类方法研究

被引：5

作者：

王笑旻

机构：

[1] 北京工业大学网络中心北京

来源：

计算机工程与应用 | 2005年 / 22期

关键词：

自动文本分类; 自动分词; 互信息; Bigram;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

摘要：

用计算机信息处理技术实现文本自动分类是计算机自然语言理解学科共同关注的课题。该文提出了一种基于Bigram的无词典的中文文本特征词的抽取方法,并利用互信息概念对得到的特征词进行处理,提高了特征词抽取的准确性。此外,通过采用基于统计学习原理和结构风险最小原则的支持向量机算法对一些文本进行了分类,验证了由所提出的算法得到的特征词的有效性和可行性。

引用

页码：177 / 179+210 +210

页数：4