基于条件随机场的自动标引模型研究

被引:23
作者
章成志 [1 ]
苏新宁 [2 ]
机构
[1] 南京理工大学信息管理系
[2] 南京大学信息管理系
关键词
抽词标引; 条件随机场; 自动标引;
D O I
10.13530/j.cnki.jlis.2008.05.015
中图分类号
G354 [情报检索];
学科分类号
摘要
条件随机场(Conditional Random Fields,CRF)模型是一种概率图模型。为了有效利用标引对象的特征,并考虑到抽词标引可以转换为序列标注问题,本文提出基于条件随机场的自动抽词标引模型。实验结果表明,该模型在改善抽词标引的性能方面,要优于支持向量机、多元线性回归模型等其他机器学习方法,是到目前为止解决序列标注问题的最好方法。但是,该模型本身还不能解决由于样本中存在同义词和相近词带来的问题,需要进一步对训练集和标引过程中存在的词汇语义情况进行考虑,提高标引的质量。
引用
收藏
页码:89 / 94+99 +99
页数:7
相关论文
共 12 条
  • [1] 一种基于词汇链的关键词抽取方法
    索红光
    刘玉树
    曹淑英
    [J]. 中文信息学报, 2006, (06) : 25 - 30
  • [2] 基于层叠条件随机场模型的中文机构名自动识别
    周俊生
    戴新宇
    尹存燕
    陈家骏
    [J]. 电子学报, 2006, (05) : 804 - 809
  • [3] 关键词自动标引的最大熵模型应用研究
    李素建
    王厚峰
    俞士汶
    辛乘胜
    [J]. 计算机学报, 2004, (09) : 1192 - 1197
  • [4] 一种基于字同现频率的汉语文本主题抽取方法
    马颖华
    王永成
    苏贵洋
    张宇萌
    [J]. 计算机研究与发展, 2003, (06) : 874 - 878
  • [5] 信息技术领域术语提取的初步研究
    王强军
    李芸
    张普
    [J]. 术语标准化与信息技术, 2003, (01) : 32 - 33+37
  • [6] 中文全文标引的主题词标引和主题概念标引方法
    韩客松
    王永成
    [J]. 情报学报, 2001, (02) : 212 - 216
  • [7] Web概念挖掘中标引源加权方案初探[J]. 侯汉清,章成志,郑红.情报学报. 2005 (01)
  • [8] 海量数据集上基于特征组合的关键词自动抽取[J]. 张庆国,薛德军,张振海,张君玉.情报学报. 2006 (05)
  • [9] 主题法导论[M]. 北京大学出版社 , 侯汉清,马张华主编, 1991
  • [10] Using lexical chains for keyword extraction
    Ercan, Gonenc
    Cicekli, Ilyas
    [J]. INFORMATION PROCESSING & MANAGEMENT, 2007, 43 (06) : 1705 - 1714