半结构化文档中非标记化表格的抽取

被引:4
作者
宋强
徐鹏
李涓子
机构
[1] 清华大学计算机系
关键词
非标记化表格; 信息抽取; 分层聚类;
D O I
暂无
中图分类号
TP311.11 [];
学科分类号
摘要
对非标记化表格进行数据建模,利用非标记化表格在文档中的结构分布特征,给出了非标记化表格的抽取算法。对非标记化表格进行行列划分,然后进行标题归纳和单元格合并。实验结果表明,论文提出的算法的正确性令人满意。
引用
收藏
页码:81 / 83+171 +171
页数:4
相关论文
共 1 条
[1]  
元数据驱动的半结构化信息智能处理模型的研究 .2 徐鹏. 清华大学 . 2003