学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
Web文本挖掘中的一种中文分词算法研究及其实现
被引:7
作者
:
苏芳仲
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
苏芳仲
林世平
论文数:
0
引用数:
0
h-index:
0
机构:
福州大学数学与计算机科学学院
林世平
机构
:
[1]
福州大学数学与计算机科学学院
[2]
福州大学数学与计算机科学学院 福建福州 350002
来源
:
福州大学学报(自然科学版)
|
2004年
/ S1期
关键词
:
文本挖掘;
字典索引;
文档格式转化;
消歧;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
081203 ;
0835 ;
摘要
:
针对Web文本挖掘中的中文信息处理的问题,介绍了将超文本格式(Html格式)的文档转化为纯文本格式(Txt格式)文档的方法.利用改进的最大匹配法来实现对文档的汉语自动分词,同时,加强消除歧义方面的处理,分词精度有所提高.
引用
收藏
页码:67 / 71
页数:5
相关论文
共 5 条
[1]
全二分最大匹配快速分词算法
李振星
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
李振星
徐泽平
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
徐泽平
论文数:
引用数:
h-index:
机构:
唐卫清
唐荣锡
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
唐荣锡
[J].
计算机工程与应用,
2002,
(11)
: 106
-
109
[2]
基于神经网络的分词方法
徐秉铮
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学无线电与自控所
徐秉铮
詹剑
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学无线电与自控所
詹剑
贺前华
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学无线电与自控所
贺前华
[J].
中文信息学报,
1993,
(02)
: 36
-
44
[3]
基于规则的汉语自动分词系统
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
姚天顺
张桂平
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
张桂平
吴映明
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
吴映明
不详
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
不详
[J].
中文信息学报 ,
1990,
(01)
: 37
-
43
[4]
汉语自动分词及歧义组合结构的处理
李国臣
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李国臣
刘开瑛
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
刘开瑛
张永奎
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
张永奎
[J].
中文信息学报,
1988,
(03)
: 27
-
33
[5]
自然语言理解导论 .2 姚天顺. 东北大学出版社 . 1993
←
1
→
共 5 条
[1]
全二分最大匹配快速分词算法
李振星
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
李振星
徐泽平
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
徐泽平
论文数:
引用数:
h-index:
机构:
唐卫清
唐荣锡
论文数:
0
引用数:
0
h-index:
0
机构:
北京航空航天大学机械工程及自动化学院
唐荣锡
[J].
计算机工程与应用,
2002,
(11)
: 106
-
109
[2]
基于神经网络的分词方法
徐秉铮
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学无线电与自控所
徐秉铮
詹剑
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学无线电与自控所
詹剑
贺前华
论文数:
0
引用数:
0
h-index:
0
机构:
华南理工大学无线电与自控所
贺前华
[J].
中文信息学报,
1993,
(02)
: 36
-
44
[3]
基于规则的汉语自动分词系统
姚天顺
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
姚天顺
张桂平
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
张桂平
吴映明
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
吴映明
不详
论文数:
0
引用数:
0
h-index:
0
机构:
东北工学院
不详
[J].
中文信息学报 ,
1990,
(01)
: 37
-
43
[4]
汉语自动分词及歧义组合结构的处理
李国臣
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
李国臣
刘开瑛
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
刘开瑛
张永奎
论文数:
0
引用数:
0
h-index:
0
机构:
山西大学计算机科学系
张永奎
[J].
中文信息学报,
1988,
(03)
: 27
-
33
[5]
自然语言理解导论 .2 姚天顺. 东北大学出版社 . 1993
←
1
→