基于百度百科与文本分类的网络文本语义主题抽取方法

被引：11

作者：

陈叶旺

王华珍

李海波

钟必能

陈锻生

机构：

[1] 华侨大学计算机科学学院

来源：

小型微型计算机系统 | 2012年 / 33卷 / 12期

关键词：

百度百科; 语义主题; 主题抽取; 语义离散度;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.

引用

页码：2605 / 2610

页数：6

共 7 条

[1]

基于语义的主题爬行策略 [J].