基于粗集理论的中文关键词短语构成规则挖掘

被引：17

作者：

刘远超

王晓龙

徐志明

刘秉权

机构：

[1] 哈尔滨工业大学计算机科学与技术学院

来源：

电子学报 | 2007年 / 02期

关键词：

抽取; 关键词短语; 粗集理论; 规则挖掘;

D O I：

暂无

中图分类号：

TP311.13 [];

学科分类号：

1201 ;

摘要：

短语比词信息量更加丰富,更能够体现原文的主题,通常所说的关键词实际上多数为短语形式.然而目前的问题是关键词短语的自动标引缺乏统一的规则指导.本文利用粗集理论在数据泛化和知识约简方面的优势,对人工标注的人民日报关键词短语语料进行了挖掘,从而得到了中文关键词短语的若干构成规则.规则可以用于自动关键词抽取,也可以对手工关键词标引进行指导.实验结果表明获取的规则使关键词自动抽取的性能有较大改善.

引用

页码：371 / 374

页数：4

共 6 条

[1] 统计词义消歧的研究进展
卢志茂
刘挺
李生
[J]. 电子学报, 2006, (02) : 333 - 343
[2] 关键词自动标引的最大熵模型应用研究
李素建
王厚峰
俞士汶
辛乘胜
[J]. 计算机学报, 2004, (09) : 1192 - 1197
[3] 中文全文标引的主题词标引和主题概念标引方法
韩客松
王永成
[J]. 情报学报, 2001, (02) : 212 - 216
[4] 计算机自然语言处理[M]. 清华大学出版社 , 王晓龙, 2005
[5] ROUGH SETS
PAWLAK, Z
[J]. INTERNATIONAL JOURNAL OF COMPUTER & INFORMATION SCIENCES, 1982, 11 (05): : 341 - 356
[6] Rough set theory library .2 Michal,Jacek. http://www.pw.edu.pl/english . 1994

← 1 →