Web文本挖掘中的一种中文分词算法研究及其实现

被引：7

作者：

苏芳仲

林世平

机构：

[1] 福州大学数学与计算机科学学院

[2] 福州大学数学与计算机科学学院福建福州　350002

来源：

关键词：

文本挖掘; 字典索引; 文档格式转化; 消歧;

D O I：

暂无

中图分类号：

TP391.1 [文字信息处理];

学科分类号：

081203 ; 0835 ;

摘要：

针对Web文本挖掘中的中文信息处理的问题,介绍了将超文本格式(Html格式)的文档转化为纯文本格式(Txt格式)文档的方法.利用改进的最大匹配法来实现对文档的汉语自动分词,同时,加强消除歧义方面的处理,分词精度有所提高.

引用

页码：67 / 71

页数：5

共 5 条