基于词条组合的军事类文本分词方法

被引:2
作者
黄魏 [1 ]
高兵 [1 ]
刘异 [2 ]
杨克巍 [1 ]
机构
[1] 国防科学技术大学信息系统与管理学院
[2] 湖南师范大学文学院
关键词
军事; 文本; 分词; 词条;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对传统的分词方法切分军事类文本存在未登录词多和部分词条特征信息不完整的问题,提出把整个分词过程分解为若干子过程,以词串为分词单位对军事类文本进行分词。首先基于词典对文本进行双向扫描,标识歧义切分字段,对切分结果一致的字段进行停用词消除,计算第一次分词得到的词条间的互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串并标识,最后提取所标识的歧义字段和词串由人工对其进行审核处理。实验结果表明,词条组合后的词串的特征信息更丰富,分词效果更好。
引用
收藏
页码:171 / 174
页数:4
相关论文
共 6 条
[1]
信息过滤中的中文自动分词技术研究 [J].
孙铁利 ;
李晓微 ;
张妍 .
计算机工程与科学, 2009, 31 (03) :80-82+100
[2]
基于字典和统计的分词方法 [J].
陈平 ;
刘晓霞 ;
李亚军 .
计算机工程与应用 , 2008, (10) :144-146
[3]
作战命令的分词技术研究 [J].
姜文志 ;
范洪达 ;
聂心东 ;
蒋伟俊 .
海军航空工程学院学报, 2008, (01) :52-54
[4]
文本挖掘中的中文分词算法研究及实现 [J].
许高建 ;
胡学钢 ;
王庆人 .
计算机技术与发展, 2007, (12) :122-124+172
[5]
军用词典库的设计 [J].
姜文志 ;
蒋伟俊 ;
张金乙 ;
王迪 .
兵工自动化, 2007, (08) :50-51+65
[6]
基于规则与统计相结合的中文文本自动查错模型与算法 [J].
张仰森 ;
曹元大 ;
俞士汶 .
中文信息学报, 2006, (04) :1-7+55