基于扩展特征向量空间模型的多源数据融合

被引:6
作者
陈珂锐
潘君
机构
[1] 河南财经政法大学计算机与信息工程学院
关键词
自然语言处理; 本体; 多源数据融合; 语义判歧;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
本体资源的扩充是自然语言处理的关键问题之一。传统的从单一数据源获取的信息其覆盖率较低,亟需建立一个整体的数据管理平台,对数据资源分类存储与整理。为此提出了AVP数据平台,构建AVP平台所面临的重要问题是多源数据的融合,即将不同来源的网站数据进行语义角色标注,对歧义词条进行识别判断,并最终归并到以义项为基本单位的数据仓库中;为解决多源数据融合的语义角色标注问题,给出了一种自动语义判歧方法。其基本思想是利用词条中的属性值对作为特征模板,并借助于属性值的共现概率,应用扩展向量空间模型对词条进行歧义识别。通过大量的实验对比可知,该系统在各方面均取得优异的成绩,所提出的算法能够很好地解决多源数据融合中的语义判歧问题。
引用
收藏
页码:87 / 92
页数:6
相关论文
共 6 条
  • [1] Automatic Data Fusion with HumMer. A. Bilke,J. Bleiholder,C. Bohm,K. Draba,F. Naumann,M. Andweis. Proceedings of the 31st International Conference on Very Large Databases (VLDB) . 2005
  • [2] Integrating conflicting data: The role of source dependence. Xin Luna Dong,Laure Berti-Equille,Divesh Srivastava. Proceedings of the VLDB Endowment . 2009
  • [3] An energy-saving privacy-preserving data aggregation algorithm. Yang G,Wang A,Chen Z,Xu J,Wang H. Chin J Comput . 2011
  • [4] Assessment model based on multivariate data fusion and hierarchical analysis. XIA Bing,PAN Lei,SUN Feixian,et al. Computer Engineering . 2010
  • [5] Data fusion[J] . Jens Bleiholder,Felix Naumann. &nbspACM Computing Surveys (CSUR) . 2009 (1)
  • [6] Performance prediction of data fusion for information retrieval[J] . Shengli Wu,Sally McClean. &nbspInformation Processing and Management . 2005 (4)