基于粗集理论的中文关键词短语构成规则挖掘

被引:17
作者
刘远超
王晓龙
徐志明
刘秉权
机构
[1] 哈尔滨工业大学计算机科学与技术学院
关键词
抽取; 关键词短语; 粗集理论; 规则挖掘;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
短语比词信息量更加丰富,更能够体现原文的主题,通常所说的关键词实际上多数为短语形式.然而目前的问题是关键词短语的自动标引缺乏统一的规则指导.本文利用粗集理论在数据泛化和知识约简方面的优势,对人工标注的人民日报关键词短语语料进行了挖掘,从而得到了中文关键词短语的若干构成规则.规则可以用于自动关键词抽取,也可以对手工关键词标引进行指导.实验结果表明获取的规则使关键词自动抽取的性能有较大改善.
引用
收藏
页码:371 / 374
页数:4
相关论文
共 6 条
  • [1] 统计词义消歧的研究进展
    卢志茂
    刘挺
    李生
    [J]. 电子学报, 2006, (02) : 333 - 343
  • [2] 关键词自动标引的最大熵模型应用研究
    李素建
    王厚峰
    俞士汶
    辛乘胜
    [J]. 计算机学报, 2004, (09) : 1192 - 1197
  • [3] 中文全文标引的主题词标引和主题概念标引方法
    韩客松
    王永成
    [J]. 情报学报, 2001, (02) : 212 - 216
  • [4] 计算机自然语言处理[M]. 清华大学出版社 , 王晓龙, 2005
  • [5] ROUGH SETS
    PAWLAK, Z
    [J]. INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05): : 341 - 356
  • [6] Rough set theory library .2 Michal,Jacek. http://www.pw.edu.pl/english . 1994