一种基于词频统计的中文分词方法

被引:16
作者
赵月斋
机构
[1] 石家庄邮电职业技术学院
关键词
分词; 基于统计; 中文搜索引擎;
D O I
暂无
中图分类号
TP391.3 [检索机];
学科分类号
080201 [机械制造及其自动化];
摘要
中文分词是中文搜索引擎中的基本任务,本文总结和分析了常用的中文分词方法,并提出了一种基于统计的分词算法。算法的原理是在文档中抽取最长重复字串,进而得到索引项。这种分词方法使得分词更加简单准确。
引用
收藏
页数:1
相关论文
共 1 条
[1]
Using statistical and contextual information to identify two- and three-character words in Chinese text [J].
Khoo, CSG ;
Dai, YB ;
Loh, TE .
JOURNAL OF THE AMERICAN SOCIETY FOR INFORMATION SCIENCE AND TECHNOLOGY, 2002, 53 (05) :365-377