Web中文文本分词技术研究

被引:35
作者
马玉春
宋瀚涛
机构
[1] 北京理工大学计算机系
关键词
中文分词; 匹配; 上下文; 信息熵;
D O I
暂无
中图分类号
TP393.09 [];
学科分类号
080402 ;
摘要
中文自动分词技术是中文Web信息处理的基础。文中以最大匹配法(MM)为基础,充分考虑上下文(MMC),在内存中采用二分法进行分词匹配,有效地提高了分词的准确率和时效。并给出了评析报告,以及在生成Web文档中的关键词与自动摘要中的应用。
引用
收藏
页码:134 / 135+155 +155
页数:3
相关论文
共 2 条
[1]   中文分词算法在搜索引擎应用中的研究 [J].
欧振猛 ;
余顺争 ;
不详 .
计算机工程与应用 , 2000, (08) :80-82+84
[2]   最大概率分词问题及其解法 [J].
刘挺 ;
吴岩 ;
王开铸 .
哈尔滨工业大学学报, 1998, (06) :37-41