一种中文领域概念词自动提取方法研究

被引:5
作者
董丽丽 [1 ]
李欢 [1 ]
张翔 [1 ]
刘闫锋 [2 ]
机构
[1] 西安建筑科技大学信息与控制工程学院
[2] 陕西学前师范学院
关键词
领域概念获取; 改进近邻传播算法; 对数似然比; 语义相似度; 互信息;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
针对统计学方法在领域概念获取时缺少词语语义信息的问题,提出了一种结合语义相似度和改进近邻传播算法的领域概念自动获取方法。该方法通过互信息进行合成词提取,使用对数似然比避免对低频词的遗漏,利用HowNet和余弦相似度识别术语间同义词,采用改进的近邻传播算法获取领域概念集合。实验结果表明,该方法在准确率、召回率和困惑度变化率上比传统的方法都有较大提高。
引用
收藏
页码:127 / 131
页数:5
相关论文
共 3 条
  • [1] 基于语言特性的中文领域术语抽取算法
    傅继彬
    樊孝忠
    毛金涛
    余正涛
    [J]. 北京理工大学学报, 2010, 30 (03) : 307 - 310
  • [2] 特定领域本体自动构造方法
    何婷婷
    张小鹏
    [J]. 计算机工程, 2007, (22) : 235 - 237
  • [3] 基于半监督学习的特定领域术语抽取算法的研究[D]. 史东娜.北京邮电大学. 2009