基于并列结构的概念实例和属性的同步提取方法

被引:4
作者
李文杰 [1 ,2 ]
穗志方 [1 ,2 ]
机构
[1] 北京大学计算语言学研究所
[2] 北京大学计算语言学教育部重点实验室
关键词
并列结构; 搜索引擎; 实例提取; 属性提取; 上下文模式;
D O I
暂无
中图分类号
TP391.7 [机器辅助技术];
学科分类号
摘要
在概念实例和属性的提取研究中,针对基于模式的方法召回率比较低的特点,该文提出了一种基于并列结构的概念实例和属性的同步提取方法。首先利用并列结构模式去网页集合中提取同类词语集合,然后再用基于种子的弱指导方法去学习实例和属性共现的上下文模式,最后再通过模式去提取候选实例或候选属性。在此过程中,每提取出一个候选,就将该候选所在的同类词语集合合并到候选集合中。实验结果表明,该文的方法在不降低准确率的基础上,能大大提高提取结果的召回率。
引用
收藏
页码:82 / 87
页数:6
相关论文
共 10 条
  • [1] Weakly-Supervised Acquisition of Open-Domain Classes and Class Attributes from Web Documents and Query Logs. M.Pasca,,B.V.Durme. Proceedings of the ACL-08:HLT . 2008
  • [2] Automatic acquisition of hyponyms from large text corpora. Hearst M A. Proceedings of the 14th International Conference on Computational Linguistics . 1992
  • [3] 基于Web弱指导的本体概念实例及属性的同步提取
    康为
    穗志方
    [J]. 中文信息学报, 2010, 24 (01) : 54 - 59
  • [4] Semantic classlearning from the web with hyponym pattern linkagegraphs. Z.Kozareva,E.Riloff,E.Hovy. Proceedings of ACL-08:HLT . 2008
  • [5] Weakly-supervised discovery of namedentities using web search queries. M.Pasca. Proceedings ofCIKM-07 . 2007
  • [6] Using structured text for large-scale attribute extraction. S.Ravi,M.Pasca. Proceedings of the 17thCIKM(CIKM 2008) . 2008
  • [7] Iterative Set Expansion of Named Entities Using the Web. Richard C.Wang,William W.Cohen. Proceedings of the 2008 International Conference on Data Mining .
  • [8] Open-Domain Attribute-Value Acquisition from Semi-Structured Texts. N.Yoshinaga,,K.Torisawa. Proceedings of the OntoLex 2007 . 2007
  • [9] Multi-Document Summarization using Sentence-based Topic Models. Dingding Wang,Shenghuo Zhu,Tao Li,Yihong Gong. Proceedings of the ACL-IJCNLP 2009 Conference Short Papers . 2009
  • [10] The Role of Documents vs.Queries in Extracting Class Attributes from Text. Pasca,M,Durme B.V,Garera N. Proceedings of the 6th ACM conference on Conference on information and knowledge management . 2007