基于维基百科和条件随机场的领域主题词抽取方法

被引:1
作者
齐保元 [1 ]
史忠植 [2 ]
机构
[1] 中国科学院大学
[2] 中国科学院计算技术研究所智能信息处理重点实验室
关键词
表构建; 主题词抽取; 维基百科(Wikipedia); 条件随机场(CRF);
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
针对传统的手工整理主题词表的方法因耗时、更新速度慢而无法满足应用要求的问题,提出了一种基于维基百科(Wikipedia)和条件随机场(CRF)的领域主题词抽取方法。该方法根据特定领域现有主题词的构词特点、统计分布特点,充分利用维基百科独特的结构优势,自动地从维基百科中获取新的领域主题词,补充现有主题词表。该方法采用条件随机场作为训练、测试的模型,将多方面的特征进行综合建模,取得了较好的实验效果。实验结果表明,使用该方法可以将主题词识别的F值提高到83%左右。
引用
收藏
页码:602 / 608
页数:7
相关论文
共 13 条
[1]  
基于条件随机场的命名实体识别研究.[D].郭家清.沈阳航空工业学院.2007, 02
[2]   技术路线图中未来技术词表构建方法研究 [J].
叶春蕾 ;
冷伏海 .
现代图书情报技术, 2013, (05) :59-63
[3]   网络化数字化时代主题词表自动构建技术的探索与实践 [J].
曾文 .
国家图书馆学刊, 2012, 21 (04) :78-82
[4]   网络环境下新型《汉语主题词表》的构建 [J].
曾建勋 ;
常春 ;
吴雯娜 ;
宋培彦 .
中国图书馆学报, 2011, 37 (04) :43-49
[5]   基于条件随机场的古汉语自动断句与标点方法 [J].
张开旭 ;
夏云庆 ;
宇航 .
清华大学学报(自然科学版), 2009, 49 (10) :1733-1736
[6]   WNCT:一种WordNet概念自动翻译方法 [J].
王石 ;
曹存根 .
中文信息学报, 2009, (04) :63-70+94
[7]   基于条件随机场的中文自动文摘系统 [J].
邓箴 ;
包宏 .
西安石油大学学报(自然科学版), 2009, (01) :96-99+102+114
[8]   电子政务主题词表自动构建研究 [J].
仲云云 ;
侯汉清 ;
杜慧平 .
中国图书馆学报, 2008, (03) :97-102
[9]   军事训练领域核心本体的构建 [J].
蒋维 ;
郝文宁 ;
杨晓恝 .
计算机工程, 2008, (05) :191-192+212
[10]  
Automatic thesaurus construction for spam filtering using revised back propagation neural network.[J].Hao Xu;Bo Yu.Expert Systems With Applications.2009, 1