基于词条组合的中文文本分词方法

被引:19
作者
黄魏 [1 ]
高兵 [1 ]
刘异 [2 ]
杨克巍 [1 ]
机构
[1] 国防科学技术大学信息系统与管理学院
[2] 湖南师范大学文学院
关键词
文本; 文本特征; 分词; 词条;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。
引用
收藏
页码:85 / 89
页数:5
相关论文
共 8 条
[1]
一个基于词典与统计的中文分词算法 [D]. 
张旭 .
电子科技大学,
2007
[2]
信息过滤中的中文自动分词技术研究 [J].
孙铁利 ;
李晓微 ;
张妍 .
计算机工程与科学, 2009, 31 (03) :80-82+100
[3]
基于字典和统计的分词方法 [J].
陈平 ;
刘晓霞 ;
李亚军 .
计算机工程与应用 , 2008, (10) :144-146
[4]
文本挖掘中的中文分词算法研究及实现 [J].
许高建 ;
胡学钢 ;
王庆人 .
计算机技术与发展, 2007, (12) :122-124+172
[5]
基于规则与统计相结合的中文文本自动查错模型与算法 [J].
张仰森 ;
曹元大 ;
俞士汶 .
中文信息学报, 2006, (04) :1-7+55
[6]
中文停用词表的自动选取 [J].
顾益军 ;
樊孝忠 ;
王建华 ;
汪涛 ;
黄维金 .
北京理工大学学报, 2005, (04) :337-340
[7]
中文文本分类中的特征选择研究 [J].
周茜 ;
赵明生 ;
扈旻 .
中文信息学报, 2004, (03) :17-23
[8]
自然语言理解.[M].(美)JamesAllen著;刘群等译;.电子工业出版社.2005,