基于LDA主题模型的图书网页书目信息提取研究

被引：7

作者：

李湘东 ^{[1
,2
]}

霍亚勇 ^{[1
]}

张娇 ^{[1
]}

机构：

[1] 武汉大学信息管理学院

[2] 武汉大学信息资源研究中心

来源：

情报科学 | 2016年 / 34卷 / 01期

关键词：

图书网页; 书目信息; LDA; 信息提取;

D O I：

10.13833/j.cnki.is.2016.01.006

中图分类号：

TP393.092 []; G254 [文献标引与编目];

学科分类号：

摘要：

以图书网页为对象,主要研究书目信息提取方法。该方法首先利用LDA对书名与各描述性段落组合的混合文本进行建模,然后分别计算书名与各段落之间的相似度提取书目信息,有效地避免传统方法不能很好反映文档间相似性的不足。实验证明,该模型针对图书网页书目信息的提取准确率达到87.4%,较传统方法有了显著提高,同时也为图书网页信息组织管理和自动分类研究奠定了基础。

引用

页码：34 / 37+43 +43

页数：5

共 11 条

[1] 基于相似度的网页标题抽取方法
李国华
昝红英
[J]. 中文信息学报, 2011, (02) : 32 - 37
[2] 基于权值优化的网页正文内容提取算法
吴麒
陈兴蜀
谭骏
[J]. 华南理工大学学报(自然科学版), 2011, 39 (04) : 32 - 37
[3] XWRAP: An XML-enabled wrapper construction system for Web information sources. LIU L, PU C, HAN W. Proceedinghs of the 16th International Conference on Data Engineering (ICDE 2000) . 2000
[4] DOM Based ContentExtractionviaTextDe-nsity. Sun Fei,Song Dandan,Liao Lejian. Proc.of the 34th Annual ACM SIGIR Conference . 2011
[5] Web数据挖掘[M]. 清华大学出版社 , (美) 刘兵, 2009
[6] 基于统计的网页正文信息抽取方法的研究
孙承杰
关毅
[J]. 中文信息学报, 2004, (05) : 17 - 22
[7] 基于DOM的网页主题信息自动提取
王琦
唐世渭
杨冬青
王腾蛟
[J]. 计算机研究与发展, 2004, (10) : 1786 - 1792
[8] 基于标记窗的网页正文信息提取方法
赵欣欣
索红光
刘玉树
[J]. 计算机应用研究, 2007, (03) : 144 - 145+180
[9] 网页正文信息抽取新方法
宋明秋
张瑞雪
吴新涛
李文立
[J]. 大连理工大学学报, 2009, 49 (04) : 594 - 597
[10] 基于相似度的中文网页正文提取算法
熊子奇
张晖
林茂松
[J]. 西南科技大学学报, 2010, 25 (01) : 80 - 84

← 1 2 →