学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于统计的中文网页正文抽取的研究
被引:27
作者
:
赵文
论文数:
0
引用数:
0
h-index:
0
机构:
武汉理工大学计算机科学与技术学院
赵文
论文数:
引用数:
h-index:
机构:
唐建雄
论文数:
引用数:
h-index:
机构:
高庆锋
机构
:
[1]
武汉理工大学计算机科学与技术学院
来源
:
电脑知识与技术
|
2008年
/ 01期
关键词
:
中文信息处理;
信息抽取;
正文抽取;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
信息抽取技术是一种广泛运用于互联网的数据挖掘技术。其目的是从互联网海量数据中抽取有意义、有价值的数据和信息,从而能更好的利用互联网资源。文中采用一种统计网页特征的方法,将中文网页中的正文部分抽取出来。该方法首先将网页表示成基于XML的DOM树形式,利用统计的节点信息从树中过滤掉噪音数据节点,最后再选取正文节点。该方法相比传统的基于包装器的抽取方法,具有简单,实用的特点,试验结果表明,该抽取方法准确率达到90%以上,具有很好的实用价值。
引用
收藏
页码:120 / 123
页数:4
相关论文
共 5 条
[1]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[2]
基于双层决策的新闻网页正文精确抽取
[J].
论文数:
引用数:
h-index:
机构:
胡国平
;
论文数:
引用数:
h-index:
机构:
张巍
;
论文数:
引用数:
h-index:
机构:
王仁华
.
中文信息学报,
2006,
(06)
:1
-9+103
[3]
基于Web的新闻信息抽取
[J].
论文数:
引用数:
h-index:
机构:
朱永盛
;
论文数:
引用数:
h-index:
机构:
武港山
.
计算机工程,
2006,
(10)
:74
-76
[4]
基于统计的网页正文信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
孙承杰
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2004,
(05)
:17
-22
[5]
信息抽取研究综述
[J].
李保利
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所北京,北京,北京
李保利
;
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所北京,北京,北京
陈玉忠
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
计算机工程与应用,
2003,
(10)
:1
-5+66
←
1
→
共 5 条
[1]
数据挖掘.[M].朱明编著;.中国科学技术大学出版社.2002,
[2]
基于双层决策的新闻网页正文精确抽取
[J].
论文数:
引用数:
h-index:
机构:
胡国平
;
论文数:
引用数:
h-index:
机构:
张巍
;
论文数:
引用数:
h-index:
机构:
王仁华
.
中文信息学报,
2006,
(06)
:1
-9+103
[3]
基于Web的新闻信息抽取
[J].
论文数:
引用数:
h-index:
机构:
朱永盛
;
论文数:
引用数:
h-index:
机构:
武港山
.
计算机工程,
2006,
(10)
:74
-76
[4]
基于统计的网页正文信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
孙承杰
;
论文数:
引用数:
h-index:
机构:
关毅
.
中文信息学报,
2004,
(05)
:17
-22
[5]
信息抽取研究综述
[J].
李保利
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所北京,北京,北京
李保利
;
陈玉忠
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所,北京大学计算机科学与技术系计算语言学研究所北京,北京,北京
陈玉忠
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
计算机工程与应用,
2003,
(10)
:1
-5+66
←
1
→