词频统计中文分词技术的研究

被引：28

作者：

朱小娟

陈特放

机构：

[1] 中南大学信息科学与工程学院

来源：

仪器仪表用户 | 2007年 / 03期

关键词：

中文分词; 词频统计; 互信息; N元统计模型; t-测试;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

120506 [数字人文];

摘要：

本文详细介绍了一个基于词频统计的中文分词系统的设计和实现。系统选用了三种统计原理分别进行统计:互信息,N元统计模型和t-测试。论文还对这三种原理的处理结果进行比较,分析各种统计原理的统计特点,以及各自所适合应用的地方。

引用

收藏

页码：78 / 79

页数：2

相关论文

共 4 条

[1]

中文文本挖掘中的无词典分词的算法及其应用 [J].

胥桂仙 ;

苏筱蔚 ;

陈淑艳 .

吉林工学院学报(自然科学版), 2002, (01) :16-18

[2]

中文搜索引擎中的中文信息处理技术 [J].

邹海山 ;

吴勇 ;

吴月珠 ;

陈阵 .

计算机应用研究, 2000, (12) :21-24

[3]

汉语概率型上下文无关语法的自动推导 [J].

周强 ;

黄昌宁 .

计算机学报, 1998, (05) :385-392

[4]

利用汉字二元语法关系解决汉语自动分词中的交集型歧义 [J].

孙茂松 ;

黄昌宁 ;

邹嘉彦 ;

陆方 ;

沈达阳 .

计算机研究与发展, 1997, (05)