学术探索
学术期刊
学术作者
新闻热点
数据分析
智能评审
基于词条组合的军事类文本分词方法
被引:2
作者
:
黄魏
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
黄魏
[
1
]
高兵
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
高兵
[
1
]
论文数:
引用数:
h-index:
机构:
刘异
[
2
]
杨克巍
论文数:
0
引用数:
0
h-index:
0
机构:
国防科学技术大学信息系统与管理学院
国防科学技术大学信息系统与管理学院
杨克巍
[
1
]
机构
:
[1]
国防科学技术大学信息系统与管理学院
[2]
湖南师范大学文学院
来源
:
计算机科学
|
2010年
/ 37卷
/ 02期
关键词
:
军事;
文本;
分词;
词条;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
120506
[数字人文]
;
摘要
:
针对传统的分词方法切分军事类文本存在未登录词多和部分词条特征信息不完整的问题,提出把整个分词过程分解为若干子过程,以词串为分词单位对军事类文本进行分词。首先基于词典对文本进行双向扫描,标识歧义切分字段,对切分结果一致的字段进行停用词消除,计算第一次分词得到的词条间的互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串并标识,最后提取所标识的歧义字段和词串由人工对其进行审核处理。实验结果表明,词条组合后的词串的特征信息更丰富,分词效果更好。
引用
收藏
页码:171 / 174
页数:4
相关论文
共 6 条
[1]
信息过滤中的中文自动分词技术研究
[J].
论文数:
引用数:
h-index:
机构:
孙铁利
;
论文数:
引用数:
h-index:
机构:
李晓微
;
论文数:
引用数:
h-index:
机构:
张妍
.
计算机工程与科学,
2009,
31
(03)
:80
-82+100
[2]
基于字典和统计的分词方法
[J].
论文数:
引用数:
h-index:
机构:
陈平
;
论文数:
引用数:
h-index:
机构:
刘晓霞
;
李亚军
论文数:
0
引用数:
0
h-index:
0
机构:
西北大学信息科学与技术学院
李亚军
.
计算机工程与应用 ,
2008,
(10)
:144
-146
[3]
作战命令的分词技术研究
[J].
姜文志
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
海军航空工程学院兵器科学与技术系
姜文志
;
范洪达
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
海军航空工程学院兵器科学与技术系
范洪达
;
聂心东
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院研究生管理大队
海军航空工程学院兵器科学与技术系
聂心东
;
蒋伟俊
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院研究生管理大队
海军航空工程学院兵器科学与技术系
蒋伟俊
.
海军航空工程学院学报,
2008,
(01)
:52
-54
[4]
文本挖掘中的中文分词算法研究及实现
[J].
论文数:
引用数:
h-index:
机构:
许高建
;
论文数:
引用数:
h-index:
机构:
胡学钢
;
论文数:
引用数:
h-index:
机构:
王庆人
.
计算机技术与发展,
2007,
(12)
:122
-124+172
[5]
军用词典库的设计
[J].
姜文志
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
姜文志
;
蒋伟俊
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
蒋伟俊
;
张金乙
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
张金乙
;
王迪
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
王迪
.
兵工自动化,
2007,
(08)
:50
-51+65
[6]
基于规则与统计相结合的中文文本自动查错模型与算法
[J].
张仰森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
北京大学计算语言学研究所
张仰森
;
曹元大
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系
北京大学计算语言学研究所
曹元大
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
中文信息学报,
2006,
(04)
:1
-7+55
←
1
→
共 6 条
[1]
信息过滤中的中文自动分词技术研究
[J].
论文数:
引用数:
h-index:
机构:
孙铁利
;
论文数:
引用数:
h-index:
机构:
李晓微
;
论文数:
引用数:
h-index:
机构:
张妍
.
计算机工程与科学,
2009,
31
(03)
:80
-82+100
[2]
基于字典和统计的分词方法
[J].
论文数:
引用数:
h-index:
机构:
陈平
;
论文数:
引用数:
h-index:
机构:
刘晓霞
;
李亚军
论文数:
0
引用数:
0
h-index:
0
机构:
西北大学信息科学与技术学院
李亚军
.
计算机工程与应用 ,
2008,
(10)
:144
-146
[3]
作战命令的分词技术研究
[J].
姜文志
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
海军航空工程学院兵器科学与技术系
姜文志
;
范洪达
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
海军航空工程学院兵器科学与技术系
范洪达
;
聂心东
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院研究生管理大队
海军航空工程学院兵器科学与技术系
聂心东
;
蒋伟俊
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院研究生管理大队
海军航空工程学院兵器科学与技术系
蒋伟俊
.
海军航空工程学院学报,
2008,
(01)
:52
-54
[4]
文本挖掘中的中文分词算法研究及实现
[J].
论文数:
引用数:
h-index:
机构:
许高建
;
论文数:
引用数:
h-index:
机构:
胡学钢
;
论文数:
引用数:
h-index:
机构:
王庆人
.
计算机技术与发展,
2007,
(12)
:122
-124+172
[5]
军用词典库的设计
[J].
姜文志
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
姜文志
;
蒋伟俊
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
蒋伟俊
;
张金乙
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
张金乙
;
王迪
论文数:
0
引用数:
0
h-index:
0
机构:
海军航空工程学院兵器科学与技术系
王迪
.
兵工自动化,
2007,
(08)
:50
-51+65
[6]
基于规则与统计相结合的中文文本自动查错模型与算法
[J].
张仰森
论文数:
0
引用数:
0
h-index:
0
机构:
北京大学计算语言学研究所
北京大学计算语言学研究所
张仰森
;
曹元大
论文数:
0
引用数:
0
h-index:
0
机构:
北京理工大学计算机科学工程系
北京大学计算语言学研究所
曹元大
;
论文数:
引用数:
h-index:
机构:
俞士汶
.
中文信息学报,
2006,
(04)
:1
-7+55
←
1
→