学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
中文文本分类系统的研究与实现
被引:0
作者
:
甘立国
论文数:
0
引用数:
0
h-index:
0
机构:
北京化工大学
北京化工大学
甘立国
机构
:
[1]
北京化工大学
关键词
:
文本分类;
向量空间模型;
特征抽取;
特征项权重;
D O I
:
暂无
年度学位
:
2006
学位类型
:
硕士
导师
:
董小国;
摘要
:
随着信息技术的迅速发展,特别是Internet的普及,网页数量呈海量增长。由于网页中的内容大部分是文本信息,因此如何根据网页中的文本信息自动分类成为目前研究的重要课题。文本自动分类是信息检索中的一个重要环节,它是指在给定的分类体系下,根据文本的内容自动判定文本类别的过程,以便于信息的检索。本文首先介绍了文本自动分类在国内外的研究现状;其次对文本自动分类所涉及的关键技术,包括信息检索模型、中文分词方法、特征抽取、特征项权重方法以及关键的分类算法,分别进行了研究和探索;再次在特征项权重方面,我们分析了传统特征项权重方法的缺点,提出使用句子的重要度对特征项的权重进行加权,实验证明这种方法能有效地反映文本的内容;接下来介绍了基于向量空间模型的中文文本分类系统的总体框架,系统流程和功能模块;最后对分类系统中实现的各种特征抽取算法、权重算法和分类算法分别进行了实验对比。
引用
收藏
页数:61
共 25 条
[1]
支持向量机解决多分类问题研究
[J].
郑勇涛
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
郑勇涛
;
刘玉树
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
刘玉树
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
不详
.
计算机工程与应用 ,
2005,
(23)
:190
-192
[2]
一个中文新词识别特征的研究
[J].
秦浩伟
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海
秦浩伟
;
论文数:
引用数:
h-index:
机构:
步丰林
.
计算机工程,
2004,
(S1)
:369
-370+414
[3]
信息推拉技术
[J].
论文数:
引用数:
h-index:
机构:
王辉
;
论文数:
引用数:
h-index:
机构:
陈凌
;
论文数:
引用数:
h-index:
机构:
张丽娟
.
情报科学,
2004,
(12)
:1440
-1443
[4]
基于向量空间模型的贝叶斯文本分类方法
[J].
论文数:
引用数:
h-index:
机构:
胡于进
;
周小玲
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学机械科学与工程学院,华中科技大学机械科学与工程学院,华中科技大学机械科学与工程学院,华中科技大学机械科学与工程学院武汉,武汉,武汉,武汉
周小玲
;
论文数:
引用数:
h-index:
机构:
凌玲
;
论文数:
引用数:
h-index:
机构:
王学林
.
计算机与数字工程,
2004,
(06)
:28
-30+77
[5]
基于因特网的网络信息资源个性化服务研究
[J].
论文数:
引用数:
h-index:
机构:
徐险峰
.
图书馆建设,
2004,
(05)
:62
-64
[6]
搜索引擎技术的现状与展望
[J].
王玲
论文数:
0
引用数:
0
h-index:
0
机构:
西安石油大学
王玲
;
马文庆
论文数:
0
引用数:
0
h-index:
0
机构:
西安石油大学
马文庆
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
西安石油大学
不详
.
现代情报 ,
2004,
(08)
:71
-72
[7]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[8]
Web中文文本分词技术研究
[J].
马玉春
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系,北京理工大学计算机系北京,北京
马玉春
;
论文数:
引用数:
h-index:
机构:
宋瀚涛
.
计算机应用,
2004,
(04)
:134
-135+155
[9]
基于kNN的快速WEB文档分类
[J].
论文数:
引用数:
h-index:
机构:
李杨
;
论文数:
引用数:
h-index:
机构:
曾海泉
;
刘庆华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
刘庆华
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
胡运发
.
小型微型计算机系统,
2004,
(04)
:725
-729
[10]
基于隐含语义的kNN文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
李永平
;
论文数:
引用数:
h-index:
机构:
程莉
;
论文数:
引用数:
h-index:
机构:
叶卫国
.
计算机工程与应用,
2004,
(06)
:71
-73
←
1
2
3
→
共 25 条
[1]
支持向量机解决多分类问题研究
[J].
郑勇涛
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
郑勇涛
;
刘玉树
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
刘玉树
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学与工程系
不详
.
计算机工程与应用 ,
2005,
(23)
:190
-192
[2]
一个中文新词识别特征的研究
[J].
秦浩伟
论文数:
0
引用数:
0
h-index:
0
机构:
上海交通大学计算机科学与工程系,上海交通大学计算机科学与工程系上海,上海
秦浩伟
;
论文数:
引用数:
h-index:
机构:
步丰林
.
计算机工程,
2004,
(S1)
:369
-370+414
[3]
信息推拉技术
[J].
论文数:
引用数:
h-index:
机构:
王辉
;
论文数:
引用数:
h-index:
机构:
陈凌
;
论文数:
引用数:
h-index:
机构:
张丽娟
.
情报科学,
2004,
(12)
:1440
-1443
[4]
基于向量空间模型的贝叶斯文本分类方法
[J].
论文数:
引用数:
h-index:
机构:
胡于进
;
周小玲
论文数:
0
引用数:
0
h-index:
0
机构:
华中科技大学机械科学与工程学院,华中科技大学机械科学与工程学院,华中科技大学机械科学与工程学院,华中科技大学机械科学与工程学院武汉,武汉,武汉,武汉
周小玲
;
论文数:
引用数:
h-index:
机构:
凌玲
;
论文数:
引用数:
h-index:
机构:
王学林
.
计算机与数字工程,
2004,
(06)
:28
-30+77
[5]
基于因特网的网络信息资源个性化服务研究
[J].
论文数:
引用数:
h-index:
机构:
徐险峰
.
图书馆建设,
2004,
(05)
:62
-64
[6]
搜索引擎技术的现状与展望
[J].
王玲
论文数:
0
引用数:
0
h-index:
0
机构:
西安石油大学
王玲
;
马文庆
论文数:
0
引用数:
0
h-index:
0
机构:
西安石油大学
马文庆
;
不详
论文数:
0
引用数:
0
h-index:
0
机构:
西安石油大学
不详
.
现代情报 ,
2004,
(08)
:71
-72
[7]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[8]
Web中文文本分词技术研究
[J].
马玉春
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机系,北京理工大学计算机系北京,北京
马玉春
;
论文数:
引用数:
h-index:
机构:
宋瀚涛
.
计算机应用,
2004,
(04)
:134
-135+155
[9]
基于kNN的快速WEB文档分类
[J].
论文数:
引用数:
h-index:
机构:
李杨
;
论文数:
引用数:
h-index:
机构:
曾海泉
;
刘庆华
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
刘庆华
;
胡运发
论文数:
0
引用数:
0
h-index:
0
机构:
复旦大学计算机系数据库中心,复旦大学计算机系数据库中心,江西省南昌高等专科学校计算机系,复旦大学计算机系数据库中心上海,上海,江西南昌,上海
胡运发
.
小型微型计算机系统,
2004,
(04)
:725
-729
[10]
基于隐含语义的kNN文本分类研究
[J].
论文数:
引用数:
h-index:
机构:
李永平
;
论文数:
引用数:
h-index:
机构:
程莉
;
论文数:
引用数:
h-index:
机构:
叶卫国
.
计算机工程与应用,
2004,
(06)
:71
-73
←
1
2
3
→