共 2 条
Web中文文本分词技术研究
被引:35
作者:
马玉春
宋瀚涛
机构:
[1] 北京理工大学计算机系
来源:
关键词:
中文分词;
匹配;
上下文;
信息熵;
D O I:
暂无
中图分类号:
TP393.09 [];
学科分类号:
080402 ;
摘要:
中文自动分词技术是中文Web信息处理的基础。文中以最大匹配法(MM)为基础,充分考虑上下文(MMC),在内存中采用二分法进行分词匹配,有效地提高了分词的准确率和时效。并给出了评析报告,以及在生成Web文档中的关键词与自动摘要中的应用。
引用
收藏
页码:134 / 135+155
+155
页数:3
相关论文