基于词条组合的中文文本分词方法

被引：19

作者：

黄魏 ^{[1
]}

高兵 ^{[1
]}

刘异 ^{[2
]}

杨克巍 ^{[1
]}

机构：

[1] 国防科学技术大学信息系统与管理学院

[2] 湖南师范大学文学院

来源：

科学技术与工程 | 2010年 / 10卷 / 01期

关键词：

文本; 文本特征; 分词; 词条;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

针对汉语自动分词后词条的特征信息缺失的问题,提出以词串为分词单位的中文文本分词方法,将整个分词过程分解为三个子过程:首先,采用逆向最大匹配法对文本进行切分;第二,对切分结果进行停用词消除;第三,计算第一次分词得到的词条互信息和相邻共现频次,根据计算结果判定相应的词条组合成词串。实验结果表明,词条组合后的词串的语义信息更丰富,有助于文本特征选择效果的改善和文本分类性能的提高。

引用

页码：85 / 89

页数：5

共 8 条

[1]

一个基于词典与统计的中文分词算法 [D].