词频统计中文分词技术的研究

被引:28
作者
朱小娟
陈特放
机构
[1] 中南大学信息科学与工程学院
关键词
中文分词; 词频统计; 互信息; N元统计模型; t-测试;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
本文详细介绍了一个基于词频统计的中文分词系统的设计和实现。系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。论文还对这三种原理的处理结果进行比较,分析各种统计原理的统计特点,以及各自所适合应用的地方。
引用
收藏
页码:78 / 79
页数:2
相关论文
共 4 条
[1]
中文文本挖掘中的无词典分词的算法及其应用 [J].
胥桂仙 ;
苏筱蔚 ;
陈淑艳 .
吉林工学院学报(自然科学版), 2002, (01) :16-18
[2]
中文搜索引擎中的中文信息处理技术 [J].
邹海山 ;
吴勇 ;
吴月珠 ;
陈阵 .
计算机应用研究, 2000, (12) :21-24
[3]
汉语概率型上下文无关语法的自动推导 [J].
周强 ;
黄昌宁 .
计算机学报, 1998, (05) :385-392
[4]
利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].
孙茂松 ;
黄昌宁 ;
邹嘉彦 ;
陆方 ;
沈达阳 .
计算机研究与发展, 1997, (05)