论文元数据信息的自动抽取

被引:35
作者
李朝光
张铭
邓志鸿
杨冬青
唐世渭
不详
机构
[1] 北京大学视觉与听觉处理国家重点实验室
[2] 北京大学计算机科学与技术系 北京
[3] 北京
[4] 北京大学计算机科学与技术系
[5] 北京
[6] 北京
关键词
元数据信息抽取正则表达式规则;
D O I
暂无
中图分类号
TP311.13 [];
学科分类号
1201 ;
摘要
为了实现在Web上电子版论文结构的查询,必须提取这些论文的标题、作者、摘要和关键字等元数据信息。在北京大学数字图书馆科技文献检索系统中利用正则表达式规则对论文元数据信息进行自动抽取。该文介绍的这种方法充分利用了论文所特有的结构,在不采用语法分析等复杂的自然语言处理手段的情况下取得了很好的效果,为面向特定领域的元信息抽取作了有益的研究和探索。
引用
收藏
页码:189 / 191+235 +235
页数:4
相关论文
共 1 条
[1]   从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78