网页信息抽取及其自动文本分类的实现

被引:13
作者
赵金仿 [1 ]
赵艳 [1 ]
缪建明 [2 ]
机构
[1] 江苏科技大学电子信息学院
[2] 中国科学院声学研究所
关键词
标记; 文本分类; 信息抽取;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
Web页面中常包含非主题信息的内容,网页必须剔除这些无用的信息后才能形成有用的文本信息。文本分类对文本信息的进一步加工处理至关重要,是信息搜索领域的另一研究课题。为了剔除网页中的无用信息,提出一种基于HTML自身结构特点的网页正文信息抽取方法,同时结合文章标题信息,实现文本自动分类的简易分类方法。该方法可以提高网页正文提取及其自动文本分类的效率。实验证明,该方法是可行的。
引用
收藏
页码:37 / 39
页数:3
相关论文
共 5 条
[1]
网页分类技术的研究 [J].
王晓霞 ;
尹四清 .
机械工程与自动化, 2007, (01) :75-77
[2]
中文网页分类的研究与实现 [J].
程传鹏 .
中原工学院学报, 2007, (01) :61-64
[3]
一种通用HTML网页主题信息提取方法 [J].
许文 ;
都云程 ;
李渝勤 ;
施水才 .
现代图书情报技术, 2007, (01) :40-43
[4]
基于Web的网页信息抽取方法的研究 [J].
冯伟华 ;
苗长芬 .
洛阳工业高等专科学校学报, 2005, (03) :30-31
[5]
Web文本挖掘技术 [J].
郭庚麒 .
计算机与网络, 2004, (Z1) :114-116