半结构化文档集的结构模式提取的研究与实现

被引:18
作者
杨建武
陈晓鸥
机构
[1] 北京大学计算机研究所文字信息处理技术国家重点实验室,北京大学计算机研究所文字信息处理技术国家重点实验室北京,北京
关键词
结构模式提取; 半结构化; 置标语言; Web信息发布; XML;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
提出了通过结构模式提取,在信息源对缺失信息进行恢复与重构的思想,给出了结构模式提取模型,并讨论了实现该模型的关键步骤与算法,最后结合基于该模型实现的系统对半结构化文档集的结构模式提取及其应用进行了总结。该研究成果已成功应用于实际系统中。
引用
收藏
页码:19 / 21+113 +113
页数:4
相关论文
共 2 条
[1]
基于SGML/XML的Internet信息发布 [J].
杨建武 .
计算机工程与应用, 2000, (11) :5-7+22
[2]
从WEB文档中构造半结构化信息的抽取器 [J].
黄豫清 ;
戚广志 ;
张福炎 .
软件学报, 2000, (01) :73-78