学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
半结构化文档中非标记化表格的抽取
被引:4
作者
:
论文数:
引用数:
h-index:
机构:
宋强
徐鹏
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学计算机系
徐鹏
论文数:
引用数:
h-index:
机构:
李涓子
机构
:
[1]
清华大学计算机系
来源
:
计算机工程
|
2005年
/ 18期
关键词
:
非标记化表格;
信息抽取;
分层聚类;
D O I
:
暂无
中图分类号
:
TP311.11 [];
学科分类号
:
摘要
:
对非标记化表格进行数据建模,利用非标记化表格在文档中的结构分布特征,给出了非标记化表格的抽取算法。对非标记化表格进行行列划分,然后进行标题归纳和单元格合并。实验结果表明,论文提出的算法的正确性令人满意。
引用
收藏
页码:81 / 83+171 +171
页数:4
相关论文
共 1 条
[1]
元数据驱动的半结构化信息智能处理模型的研究 .2 徐鹏. 清华大学 . 2003
←
1
→
共 1 条
[1]
元数据驱动的半结构化信息智能处理模型的研究 .2 徐鹏. 清华大学 . 2003
←
1
→