学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于百度百科与文本分类的网络文本语义主题抽取方法
被引:11
作者
:
论文数:
引用数:
h-index:
机构:
陈叶旺
论文数:
引用数:
h-index:
机构:
王华珍
论文数:
引用数:
h-index:
机构:
李海波
论文数:
引用数:
h-index:
机构:
钟必能
论文数:
引用数:
h-index:
机构:
陈锻生
机构
:
[1]
华侨大学计算机科学学院
来源
:
小型微型计算机系统
|
2012年
/ 33卷
/ 12期
关键词
:
百度百科;
语义主题;
主题抽取;
语义离散度;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
网络上存在海量中文文本资源,其中许多具有稀疏性与不规范性,难于处理与挖掘.百度百科是一个丰富的与社会热点、网络流行紧密相关的动态中文知识库,基于百度百科本文提出一种网络文本语义主题抽取方法.首先利用百度百科的知识关系将文本映射到侯选语义主题空间中,根据训练数据进行分类,找出最大可能的分类,选出属于该分类的候选语义主题.最后提出根据语义离散度确定最终语义主题.在两个数据集上的实验结果表明,该方法不仅对网络不规范文本而且对于规则文本都具有较好的语义主题抽取性能.
引用
收藏
页码:2605 / 2610
页数:6
相关论文
共 7 条
[1]
基于语义的主题爬行策略
[J].
论文数:
引用数:
h-index:
机构:
叶育鑫
;
论文数:
引用数:
h-index:
机构:
欧阳丹彤
.
软件学报,
2011,
22
(09)
:2075
-2088
[2]
自然语言处理中主题模型的发展
[J].
论文数:
引用数:
h-index:
机构:
徐戈
;
论文数:
引用数:
h-index:
机构:
王厚峰
.
计算机学报,
2011,
34
(08)
:1423
-1436
[3]
面向网络论坛的高质量主题发现
[J].
论文数:
引用数:
h-index:
机构:
陈友
;
论文数:
引用数:
h-index:
机构:
程学旗
;
论文数:
引用数:
h-index:
机构:
杨森
.
软件学报,
2011,
22
(08)
:1785
-1804
[4]
基于信息论的潜在概念获取与文本聚类
[J].
李晓光
论文数:
0
引用数:
0
h-index:
0
机构:
辽宁大学信息学院
辽宁大学信息学院
李晓光
;
论文数:
引用数:
h-index:
机构:
于戈
;
论文数:
引用数:
h-index:
机构:
王大玲
;
鲍玉斌
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
辽宁大学信息学院
鲍玉斌
.
软件学报,
2008,
(09)
:2276
-2284
[5]
一种基于相似度分析的主题提取和发现算法
[J].
王晓宇
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
王晓宇
;
熊方
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
熊方
;
凌波
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
凌波
;
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
周傲英
.
软件学报,
2003,
(09)
:1578
-1585
[6]
一种基于字同现频率的汉语文本主题抽取方法
[J].
论文数:
引用数:
h-index:
机构:
马颖华
;
论文数:
引用数:
h-index:
机构:
王永成
;
论文数:
引用数:
h-index:
机构:
苏贵洋
;
张宇萌
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
张宇萌
.
计算机研究与发展,
2003,
(06)
:874
-878
[7]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
←
1
→
共 7 条
[1]
基于语义的主题爬行策略
[J].
论文数:
引用数:
h-index:
机构:
叶育鑫
;
论文数:
引用数:
h-index:
机构:
欧阳丹彤
.
软件学报,
2011,
22
(09)
:2075
-2088
[2]
自然语言处理中主题模型的发展
[J].
论文数:
引用数:
h-index:
机构:
徐戈
;
论文数:
引用数:
h-index:
机构:
王厚峰
.
计算机学报,
2011,
34
(08)
:1423
-1436
[3]
面向网络论坛的高质量主题发现
[J].
论文数:
引用数:
h-index:
机构:
陈友
;
论文数:
引用数:
h-index:
机构:
程学旗
;
论文数:
引用数:
h-index:
机构:
杨森
.
软件学报,
2011,
22
(08)
:1785
-1804
[4]
基于信息论的潜在概念获取与文本聚类
[J].
李晓光
论文数:
0
引用数:
0
h-index:
0
机构:
辽宁大学信息学院
辽宁大学信息学院
李晓光
;
论文数:
引用数:
h-index:
机构:
于戈
;
论文数:
引用数:
h-index:
机构:
王大玲
;
鲍玉斌
论文数:
0
引用数:
0
h-index:
0
机构:
东北大学信息科学与工程学院
辽宁大学信息学院
鲍玉斌
.
软件学报,
2008,
(09)
:2276
-2284
[5]
一种基于相似度分析的主题提取和发现算法
[J].
王晓宇
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
王晓宇
;
熊方
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
熊方
;
凌波
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
凌波
;
周傲英
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机科学与工程系
周傲英
.
软件学报,
2003,
(09)
:1578
-1585
[6]
一种基于字同现频率的汉语文本主题抽取方法
[J].
论文数:
引用数:
h-index:
机构:
马颖华
;
论文数:
引用数:
h-index:
机构:
王永成
;
论文数:
引用数:
h-index:
机构:
苏贵洋
;
张宇萌
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海,上海,上海
张宇萌
.
计算机研究与发展,
2003,
(06)
:874
-878
[7]
A vector space model for automatic indexing.[J].G. Salton;A. Wong;C. S. Yang.Communications of the ACM.1975, 11
←
1
→