学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
网页信息抽取及其自动文本分类的实现
被引:13
作者
:
论文数:
引用数:
h-index:
机构:
赵金仿
[
1
]
论文数:
引用数:
h-index:
机构:
赵艳
[
1
]
论文数:
引用数:
h-index:
机构:
缪建明
[
2
]
机构
:
[1]
江苏科技大学电子信息学院
[2]
中国科学院声学研究所
来源
:
计算机技术与发展
|
2008年
/ 10期
关键词
:
标记;
文本分类;
信息抽取;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。
引用
收藏
页码:37 / 39
页数:3
相关论文
共 5 条
[1]
网页分类技术的研究
[J].
论文数:
引用数:
h-index:
机构:
王晓霞
;
论文数:
引用数:
h-index:
机构:
尹四清
.
机械工程与自动化,
2007,
(01)
:75
-77
[2]
中文网页分类的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
程传鹏
.
中原工学院学报,
2007,
(01)
:61
-64
[3]
一种通用HTML网页主题信息提取方法
[J].
许文
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
许文
;
论文数:
引用数:
h-index:
机构:
都云程
;
论文数:
引用数:
h-index:
机构:
李渝勤
;
论文数:
引用数:
h-index:
机构:
施水才
.
现代图书情报技术,
2007,
(01)
:40
-43
[4]
基于Web的网页信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
冯伟华
;
苗长芬
论文数:
0
引用数:
0
h-index:
0
机构:
中国烟草总公司郑州烟草研究院
苗长芬
.
洛阳工业高等专科学校学报,
2005,
(03)
:30
-31
[5]
Web文本挖掘技术
[J].
郭庚麒
论文数:
0
引用数:
0
h-index:
0
机构:
广东交通职业技术学院计算机系广州
郭庚麒
.
计算机与网络,
2004,
(Z1)
:114
-116
←
1
→
共 5 条
[1]
网页分类技术的研究
[J].
论文数:
引用数:
h-index:
机构:
王晓霞
;
论文数:
引用数:
h-index:
机构:
尹四清
.
机械工程与自动化,
2007,
(01)
:75
-77
[2]
中文网页分类的研究与实现
[J].
论文数:
引用数:
h-index:
机构:
程传鹏
.
中原工学院学报,
2007,
(01)
:61
-64
[3]
一种通用HTML网页主题信息提取方法
[J].
许文
论文数:
0
引用数:
0
h-index:
0
机构:
北京信息科技大学中文信息处理研究中心
许文
;
论文数:
引用数:
h-index:
机构:
都云程
;
论文数:
引用数:
h-index:
机构:
李渝勤
;
论文数:
引用数:
h-index:
机构:
施水才
.
现代图书情报技术,
2007,
(01)
:40
-43
[4]
基于Web的网页信息抽取方法的研究
[J].
论文数:
引用数:
h-index:
机构:
冯伟华
;
苗长芬
论文数:
0
引用数:
0
h-index:
0
机构:
中国烟草总公司郑州烟草研究院
苗长芬
.
洛阳工业高等专科学校学报,
2005,
(03)
:30
-31
[5]
Web文本挖掘技术
[J].
郭庚麒
论文数:
0
引用数:
0
h-index:
0
机构:
广东交通职业技术学院计算机系广州
郭庚麒
.
计算机与网络,
2004,
(Z1)
:114
-116
←
1
→