采用连续词袋模型(CBOW)的领域术语自动抽取研究

被引:21
作者
姜霖 [1 ,2 ]
王东波 [3 ]
机构
[1] 不详
[2] 南京大学信息管理学院
[3] 不详
[4] 江苏省数据工程与知识服务重点实验室
[5] 南京农业大学信息科学技术学院
[6] 不详
关键词
术语抽取; 神经网络; CBOW模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
【目的】更准确便捷地完成术语词汇的自动抽取。【方法】利用CBOW模型计算构成术语的各个词部件的向量空间模型。通过词向量之间的余弦相似度衡量术语词汇内部各个词部件的关联度。利用Page Rank算法计算候选词汇的领域代表性并排序,通过阈值的设定,抽取出更为具有领域代表性的术语词汇。【结果】在以自然语言处理领域内的论文摘要作为数据集的实验中取得较高的准确率和召回率。【局限】测试的数据训练集偏小,而数据集的训练效果直接影响实验的效果。【结论】实验结果表明利用CBOW模型完成术语的抽取工作是一个较为合理、可行的方法。
引用
收藏
页码:9 / 15
页数:7
相关论文
共 11 条
  • [1] Word2vec的工作原理及应用探究
    周练
    [J]. 科技情报开发与经济, 2015, 25 (02) : 145 - 148
  • [2] 2009共享版ICTCLAS的分析与使用[J]. 刘克强.科教文汇(上旬刊). 2009(08)
  • [3] 基于互信息的中文术语抽取系统
    张锋
    许云
    侯艳
    樊孝忠
    [J]. 计算机应用研究, 2005, (05) : 72 - 73+77
  • [4] 信息科学与技术领域术语部件描述
    吴云芳
    穗志方
    邱利坤
    宋作燕
    胡俊峰
    [J]. 语言文字应用, 2003, (04) : 34 - 39
  • [5] 基于多层术语度的一体化术语抽取研究[J]. 章成志.情报学报. 2011 (03)
  • [6] 术语定义抽取、聚类与术语识别研究[D]. 张榕.北京语言大学 2006
  • [7] 信息科学和信息技术术语概念体系研究[D]. 李芸.北京语言文化大学 2003
  • [8] 解密搜索引擎技术实战[M]. 电子工业出版社 , 罗刚, 2011
  • [9] 统计自然语言处理基础[M]. 电子工业出版社 , (美)ChristopherD.Manning,(德)HinrichSchutze著, 2005
  • [10] Automatic recognition of multi-word terms:. the C-value/NC-value method[J] . Katerina Frantzi,Sophia Ananiadou,Hideki Mima.International Journal on Digital Libraries . 2000 (2)