一种基于词聚类的中文文本主题抽取方法

被引:15
作者
陈炯
张永奎
机构
[1] 山西大学计算机与信息技术学院
关键词
主题抽取; 词聚类; 种子词; 主题因子; 信息论; 词同现; CHI统计;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
提出了一种基于词聚类的中文文本主题抽取方法,该方法利用相关度对词的共现进行分 析,建立词之间的语义关联,并生成代表某一主题概念的用种子词表示的词类。对于给定文档,先进 行特征词抽取,再借助词类生成该文档的主题因子,最后按权重输出主题因子,作为文本的主题。实 验结果表明,该方法具有较高的抽准率。
引用
收藏
页码:754 / 756
页数:3
相关论文
共 6 条
  • [1] 知识发现.[M].史忠植著;.清华大学出版社.2002,
  • [2] 信息科学原理.[M].钟义信著;.北京邮电大学出版社.2002,
  • [3] 中文文本分类中特征抽取方法的比较研究
    代六玲
    黄河燕
    陈肇雄
    [J]. 中文信息学报, 2004, (01) : 26 - 32
  • [4] 一种基于字同现频率的汉语文本主题抽取方法
    马颖华
    王永成
    苏贵洋
    张宇萌
    [J]. 计算机研究与发展, 2003, (06) : 874 - 878
  • [5] 三个层面的中文文本主题自动提取研究
    韩客松
    王永成
    沈洲
    吴芳芳
    [J]. 中文信息学报, 2001, (04) : 20 - 27
  • [6] 基于情境的文本主题求解
    麻志毅
    姚天顺
    不详
    [J]. 计算机研究与发展 , 1998, (04) : 57 - 61