使用概念基元特征进行自动文本分类

被引:6
作者
贾宁
机构
[1] 中国科学院研究生院
关键词
文本分类; HNC; 特征;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
自动文本分类技术是大规模文档数据处理的关键技术,在文本分类过程中通常先进行文本表示,即把文本转化为特征向量,这其中常用的特征有特征词、词频、N-gram等等。论文研究了一种新的特征,即词语的HNC概念符号。词语的HNC概念符号来自于HNC(概念层次网络,HierarchicalNetworkofConcepts)建立的语义网络,以符号表达式的方式表示了词语的语义信息。因此使用HNC概念符号作为特征实际上是以文本中蕴含的语义信息作为特征,和词频等使用文本表层信息的特征有本质的不同。采用最大熵模型的方法建立分类器,以分词和HNC概念符号作为特征进行了研究,并对分类结果进行了比较。结果表明,HNC特征优于分词特征。
引用
收藏
页码:24 / 26
页数:3
相关论文
共 2 条
  • [1] 使用最大熵模型进行中文文本分类
    李荣陆
    王建会
    陈晓云
    陶晓鹏
    胡运发
    [J]. 计算机研究与发展, 2005, (01) : 94 - 101
  • [2] HNC(概念层次网络)理论导论[M]. 清华大学出版社 , 苗传江著, 2005