基于LDA主题模型的图书网页书目信息提取研究

被引:7
作者
李湘东 [1 ,2 ]
霍亚勇 [1 ]
张娇 [1 ]
机构
[1] 武汉大学信息管理学院
[2] 武汉大学信息资源研究中心
关键词
图书网页; 书目信息; LDA; 信息提取;
D O I
10.13833/j.cnki.is.2016.01.006
中图分类号
TP393.092 []; G254 [文献标引与编目];
学科分类号
摘要
以图书网页为对象,主要研究书目信息提取方法。该方法首先利用LDA对书名与各描述性段落组合的混合文本进行建模,然后分别计算书名与各段落之间的相似度提取书目信息,有效地避免传统方法不能很好反映文档间相似性的不足。实验证明,该模型针对图书网页书目信息的提取准确率达到87.4%,较传统方法有了显著提高,同时也为图书网页信息组织管理和自动分类研究奠定了基础。
引用
收藏
页码:34 / 37+43 +43
页数:5
相关论文
共 11 条
  • [1] 基于相似度的网页标题抽取方法
    李国华
    昝红英
    [J]. 中文信息学报, 2011, (02) : 32 - 37
  • [2] 基于权值优化的网页正文内容提取算法
    吴麒
    陈兴蜀
    谭骏
    [J]. 华南理工大学学报(自然科学版), 2011, 39 (04) : 32 - 37
  • [3] XWRAP: An XML-enabled wrapper construction system for Web information sources. LIU L, PU C, HAN W. Proceedinghs of the 16th International Conference on Data Engineering (ICDE 2000) . 2000
  • [4] DOM Based ContentExtractionviaTextDe-nsity. Sun Fei,Song Dandan,Liao Lejian. Proc.of the 34th Annual ACM SIGIR Conference . 2011
  • [5] Web数据挖掘[M]. 清华大学出版社 , (美) 刘兵, 2009
  • [6] 基于统计的网页正文信息抽取方法的研究
    孙承杰
    关毅
    [J]. 中文信息学报, 2004, (05) : 17 - 22
  • [7] 基于DOM的网页主题信息自动提取
    王琦
    唐世渭
    杨冬青
    王腾蛟
    [J]. 计算机研究与发展, 2004, (10) : 1786 - 1792
  • [8] 基于标记窗的网页正文信息提取方法
    赵欣欣
    索红光
    刘玉树
    [J]. 计算机应用研究, 2007, (03) : 144 - 145+180
  • [9] 网页正文信息抽取新方法
    宋明秋
    张瑞雪
    吴新涛
    李文立
    [J]. 大连理工大学学报, 2009, 49 (04) : 594 - 597
  • [10] 基于相似度的中文网页正文提取算法
    熊子奇
    张晖
    林茂松
    [J]. 西南科技大学学报, 2010, 25 (01) : 80 - 84