基于排序学习的文本概念标注方法研究

被引:2
作者
涂新辉 [1 ,2 ]
何婷婷 [1 ,2 ]
李芳 [1 ,2 ]
王建文 [1 ,2 ]
机构
[1] 华中师范大学计算机学院
[2] 国家语言资源监测与研究中心网络媒体语言分中心
关键词
概念标注; 排序学习; 维基百科; 显示语义分析;
D O I
10.13209/j.0479-8023.2013.023
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
提出一种基于排序学习的方法 CRM(concept ranking model),来实现文档的维基百科概念自动标注。首先人工对一定规模的文档进行概念标注,建立训练集合,然后利用排序学习算法在多项特征上得到对概念排序的模型,利用这个概念的排序模型对任意文档进行概念标注。实验表明,相对于传统的文档概念标注方法,此方法在各类指标上都有相当大的提高,标注结果更加接近人类的概念标注。
引用
收藏
页码:153 / 158
页数:6
相关论文
共 1 条
[1]  
Wikipedia-based Semantic Inter-pretation for Natural Language Processing .2 Gabrilovich E,Markovitch S. Journal ofArtificialIntelligence Research . 2009