学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于词条组合的中文文本分词方法
被引:19
作者
:
黄魏
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
黄魏
[
1
]
高兵
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
高兵
[
1
]
论文数:
引用数:
h-index:
机构:
刘异
[
2
]
杨克巍
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
杨克巍
[
1
]
机构
:
[1]
国防科学技术大学信息系统与管理学院
[2]
湖南师范大学文学院
来源
:
科学技术与工程
|
2010年
/ 10卷
/ 01期
关键词
:
文本;
文本特征;
分词;
词条;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。
引用
收藏
页码:85 / 89
页数:5
相关论文
共 8 条
[1]
一个基于词典与统计的中文分词算法
[D].
论文数:
引用数:
h-index:
机构:
张旭
.
电子科技大学,
2007
[2]
信息过滤中的中文自动分词技术研究
[J].
论文数:
引用数:
h-index:
机构:
孙铁利
;
论文数:
引用数:
h-index:
机构:
李晓微
;
论文数:
引用数:
h-index:
机构:
张妍
.
计算机工程与科学,
2009,
31
(03)
:80
-82+100
[3]
基于字典和统计的分词方法
[J].
论文数:
引用数:
h-index:
机构:
陈平
;
论文数:
引用数:
h-index:
机构:
刘晓霞
;
李亚军
论文数:
0
引用数:
0
h-index:
0
机构:
西北大学信息科学与技术学院
李亚军
.
计算机工程与应用 ,
2008,
(10)
:144
-146
[4]
文本挖掘中的中文分词算法研究及实现
[J].
论文数:
引用数:
h-index:
机构:
许高建
;
论文数:
引用数:
h-index:
机构:
胡学钢
;
论文数:
引用数:
h-index:
机构:
王庆人
.
计算机技术与发展,
2007,
(12)
:122
-124+172
[5]
基于规则与统计相结合的中文文本自动查错模型与算法
[J].
张仰森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
北京大学计算语言学研究所
张仰森
;
曹元大
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系
北京大学计算语言学研究所
曹元大
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
中文信息学报,
2006,
(04)
:1
-7+55
[6]
中文停用词表的自动选取
[J].
顾益军
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
顾益军
;
论文数:
引用数:
h-index:
机构:
樊孝忠
;
王建华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
王建华
;
论文数:
引用数:
h-index:
机构:
汪涛
;
黄维金
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
黄维金
.
北京理工大学学报,
2005,
(04)
:337
-340
[7]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[8]
自然语言理解.[M].(美)JamesAllen著;刘群等译;.电子工业出版社.2005,
←
1
→
共 8 条
[1]
一个基于词典与统计的中文分词算法
[D].
论文数:
引用数:
h-index:
机构:
张旭
.
电子科技大学,
2007
[2]
信息过滤中的中文自动分词技术研究
[J].
论文数:
引用数:
h-index:
机构:
孙铁利
;
论文数:
引用数:
h-index:
机构:
李晓微
;
论文数:
引用数:
h-index:
机构:
张妍
.
计算机工程与科学,
2009,
31
(03)
:80
-82+100
[3]
基于字典和统计的分词方法
[J].
论文数:
引用数:
h-index:
机构:
陈平
;
论文数:
引用数:
h-index:
机构:
刘晓霞
;
李亚军
论文数:
0
引用数:
0
h-index:
0
机构:
西北大学信息科学与技术学院
李亚军
.
计算机工程与应用 ,
2008,
(10)
:144
-146
[4]
文本挖掘中的中文分词算法研究及实现
[J].
论文数:
引用数:
h-index:
机构:
许高建
;
论文数:
引用数:
h-index:
机构:
胡学钢
;
论文数:
引用数:
h-index:
机构:
王庆人
.
计算机技术与发展,
2007,
(12)
:122
-124+172
[5]
基于规则与统计相结合的中文文本自动查错模型与算法
[J].
张仰森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
北京大学计算语言学研究所
张仰森
;
曹元大
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系
北京大学计算语言学研究所
曹元大
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
中文信息学报,
2006,
(04)
:1
-7+55
[6]
中文停用词表的自动选取
[J].
顾益军
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
顾益军
;
论文数:
引用数:
h-index:
机构:
樊孝忠
;
王建华
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
王建华
;
论文数:
引用数:
h-index:
机构:
汪涛
;
黄维金
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,北京理工大学信息科学技术学院计算机科学工程系,中国公安大学信息安全工程系北京 ,北京 ,北京 ,北京 ,北京
黄维金
.
北京理工大学学报,
2005,
(04)
:337
-340
[7]
中文文本分类中的特征选择研究
[J].
周茜
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
周茜
;
赵明生
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
赵明生
;
扈旻
论文数:
0
引用数:
0
h-index:
0
机构:
清华大学电子工程系
扈旻
.
中文信息学报,
2004,
(03)
:17
-23
[8]
自然语言理解.[M].(美)JamesAllen著;刘群等译;.电子工业出版社.2005,
←
1
→