非结构化信息抽取关键技术研究探讨

被引:37
作者
周法国 [1 ]
王映龙 [2 ]
杨炳儒 [3 ]
宋泽锋 [3 ]
机构
[1] 中国矿业大学(北京)机电与信息工程学院
[2] 江西农业大学软件学院
[3] 北京科技大学信息工程学院
关键词
信息抽取; 内在认知机理; 命名实体识别; 共指消解; 机器学习;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
以基于内在认知机理的知识发现理论为指导,针对汉语命名实体识别的难点,充分考虑专家知识在命名实体识别中的作用;根据不同的实体类型,采用灵活变化的统计与规则相结合的方式;采用各种技术来研究信息抽取的任务,如:机器学习技术、篇章分析与理解技术、句法分析技术、图算法与图挖掘技术、词计算技术、快速全文检索技术等;该文探讨的是不仅要从文本中获取简单子句中的关系,还要获得跨句子、段落中的实体关系。
引用
收藏
页码:1 / 6+21 +21
页数:7
相关论文
共 8 条
[1]
中文实体关系抽取中的特征选择研究 [J].
董静 ;
孙乐 ;
冯元勇 ;
黄瑞红 .
中文信息学报, 2007, (04) :80-85+91
[2]
基于角色标注的中国人名自动识别研究 [J].
张华平 ;
刘群 .
计算机学报, 2004, (01) :85-91
[3]
Introduction to information extraction[J] Douglas E. Appelt AiCOMMUNICATIONS 1999,
[4]
Learning Information Extraction Rules for Semi-Structured and Free Text[J] Stephen Soderland Machine Learning 1999,
[5]
基于内在机理的知识发现理论及其应用[M] 杨炳儒著; 电子工业出版社 2004,
[6]
Named Entity Recognition: A Maximum Entropy Approach Using Global Information Hai Leong Chieu; Hwee Tou Ng; 2002,
[7]
A Trainable Method for Extracting Chinese Entity Names and Their Relations Zhang Y M;Zhou J F; Proceedings of the Second Chinese Language Processing Workshop 2000,
[8]
Graph-bascd anomaly detection Noble C C;Cook DJ; SIGKDD Electronic edition 2003,