信息过滤中的中文自动分词技术研究

被引:16
作者
孙铁利
李晓微
张妍
机构
[1] 东北师范大学计算机学院
关键词
中文自动分词; 歧义; 未登录词; 形式化模型;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
120506 [数字人文];
摘要
文本信息过滤技术需要解决的一个重要问题是对文档进行形式化处理,使得文本成为可计算和推理的信息,而中文自动分词是中文信息处理的基础性工作。本文对中文自动分词的主要方法进行了研究分析,构造了分词的形式化模型,说明了自动分词中存在的两个最大困难及其解决方法,最后指出了中文自动分词研究中存在的问题及未来的研究工作。
引用
收藏
页码:80 / 82+100 +100
页数:4
相关论文
共 12 条
[1]
文本内容过滤的关键技术研究 [D]. 
王圆 .
东北师范大学,
2006
[2]
基于神经网络的中文分词算法的研究 [D]. 
张晓淼 .
大连理工大学,
2006
[3]
中文自动分词系统的研究 [D]. 
朱珣 .
华中师范大学,
2004
[4]
字典与统计相结合的中文分词方法 [J].
翟凤文 ;
赫枫龄 ;
左万利 .
小型微型计算机系统, 2006, (09) :1766-1771
[5]
未登录词识别算法的改进 [J].
蔡勇智 .
福建电脑, 2006, (03) :116-117
[6]
中文信息处理中自动分词技术的研究与展望 [J].
刘迁 ;
贾惠波 .
计算机工程与应用 , 2006, (03) :175-177+182
[7]
中文自动分词系统的设计模型 [J].
邓宏涛 .
计算机与数字工程, 2005, (04) :138-140
[8]
汉语自动分词的研究现状与困难 [J].
张春霞 ;
郝天永 .
系统仿真学报, 2005, (01) :138-143+147
[9]
一种规则与统计相结合的汉语分词方法 [J].
赵伟 ;
戴新宇 ;
尹存燕 ;
陈家骏 .
计算机应用研究, 2004, (03) :23-25
[10]
分词中的歧义处理 [J].
谭琼 ;
史忠植 ;
不详 .
计算机工程与应用 , 2002, (11) :125-127+236