基于领域词典的文本特征表示

被引:21
作者
陈文亮
朱靖波
朱慕华
姚天顺
机构
[1] 东北大学自然语言处理实验室
关键词
文本分类; 知识获取; 领域知识; 文本表示;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
为提高文本分类性能,提出一种结合机器学习和领域词典的文本特征表示方法·基于领域词典的文本特征表示方法可以增强文本特征表示能力,并降低文本特征空间维数,但是领域词典存在覆盖度不足的问题·为此,提出一种学习模型———自划分模型———来解决这个覆盖度不足的问题·实验结果表明,采用基于自划分模型的领域特征属性作为文本特征,可以提高文本分类性能,特别是特征数目少的情况下,该方法表现出很好的分类效果·相对于传统词文本特征方法,在特征数为500时分类的F1值提高6·58%·
引用
收藏
页码:2155 / 2160
页数:6
相关论文
共 4 条
  • [1] 基于支撑向量置换核函数的一种领域知识与模型融合的技术
    李辉
    史忠植
    何清
    许卓群
    [J]. 计算机学报, 2002, (08) : 860 - 868
  • [2] 基于FIFA算法的文本分类
    朱靖波
    姚天顺
    [J]. 中文信息学报, 2002, (03) : 20 - 26
  • [3] 独立于语种的文本分类方法
    黄萱菁
    吴立德
    石崎洋之
    徐国伟
    [J]. 中文信息学报, 2000, (06) : 1 - 7
  • [4] 《中国图书馆分类法》(第四版)使用手册.[M].中国图书馆分类法编辑委员会编;.北京图书馆出版社.1999,