基于百度百科与文本分类的网络文本语义主题抽取方法

被引:11
作者
陈叶旺
王华珍
李海波
钟必能
陈锻生
机构
[1] 华侨大学计算机科学学院
关键词
百度百科; 语义主题; 主题抽取; 语义离散度;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
引用
收藏
页码:2605 / 2610
页数:6
相关论文
共 7 条
[1]
基于语义的主题爬行策略 [J].
叶育鑫 ;
欧阳丹彤 .
软件学报, 2011, 22 (09) :2075-2088
[2]
自然语言处理中主题模型的发展 [J].
徐戈 ;
王厚峰 .
计算机学报, 2011, 34 (08) :1423-1436
[3]
面向网络论坛的高质量主题发现 [J].
陈友 ;
程学旗 ;
杨森 .
软件学报, 2011, 22 (08) :1785-1804
[4]
基于信息论的潜在概念获取与文本聚类 [J].
李晓光 ;
于戈 ;
王大玲 ;
鲍玉斌 .
软件学报, 2008, (09) :2276-2284
[5]
一种基于相似度分析的主题提取和发现算法 [J].
王晓宇 ;
熊方 ;
凌波 ;
周傲英 .
软件学报, 2003, (09) :1578-1585
[6]
一种基于字同现频率的汉语文本主题抽取方法 [J].
马颖华 ;
王永成 ;
苏贵洋 ;
张宇萌 .
计算机研究与发展, 2003, (06) :874-878
[7]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11