基于延迟决策和斜率的新词识别方法

被引:7
作者
郭伟
陈蓉
周伟
熊伟
于中华
机构
[1] 四川大学计算机学院
基金
高等学校博士学科点专项科研基金;
关键词
索引; 新词识别; 加速度; 斜率; 中文分词; 互信息;
D O I
暂无
中图分类号
TP391.43 [];
学科分类号
摘要
采用词典分词时会遇到未登录词的识别问题.本文提出一种新的中文新词识别方法,用于全文信息检索系统索引的建立.在索引切分过程中遇到无法切分字串时,暂存为未切分串,并生成统计信息.待未切分串达到一定数量时,再利用生成的统计信息结合斜率(加速度)的方法来切分暂存的未切分串.切分的结果可以进入索引,对于出现频率高的切分片段可以提取加入词典.
引用
收藏
页码:517 / 520
页数:4
相关论文
共 5 条
[1]
基于词频统计的中文分词的研究 [J].
费洪晓 ;
康松林 ;
朱小娟 ;
谢文彪 ;
不详 .
计算机工程与应用 , 2005, (07) :67-68+100
[2]
一个中文新词识别特征的研究 [J].
秦浩伟 ;
步丰林 .
计算机工程, 2004, (S1) :369-370+414
[3]
搜索引擎的混合索引技术 [J].
彭波 .
计算机工程与应用 , 2004, (22) :16-18
[5]
基于决策树的汉语未登录词识别 [J].
秦文 ;
苑春法 .
中文信息学报, 2004, (01) :14-19