中文文本挖掘中的无词典分词的算法及其应用

被引:22
作者
胥桂仙
苏筱蔚
陈淑艳
机构
[1] 吉林工学院计算机科学与工程学院
[2] 吉林工学院计算机科学与工程学院 吉林长春
[3] 吉林长春
关键词
文本挖掘; 中文分词; 无词典分词;
D O I
10.15923/j.cnki.cn22-1382/t.2002.01.005
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
对中文文本挖掘中的词汇处理技术进行了较深入的探讨 ,提出了针对汉语语言特点的无词典分词算法。该算法基于“找最长字共现”的原则 ,可以准确地将文本中的词汇切分出来。
引用
收藏
页码:16 / 18
页数:3
相关论文
共 7 条
[1]   中文搜索引擎中的中文信息处理技术 [J].
邹海山 ;
吴勇 ;
吴月珠 ;
陈阵 .
计算机应用研究, 2000, (12) :21-24
[2]   有效地检索HTML文档 [J].
刘芳 ;
卢正鼎 .
小型微型计算机系统, 2000, (09) :986-988
[3]   挖掘关联规则中Apriori算法的研究 [J].
陆丽娜 ;
陈亚萍 ;
魏恒义 ;
杨麦顺 .
小型微型计算机系统, 2000, (09) :940-943
[4]   Web文本挖掘技术研究 [J].
王继成 ;
潘金贵 ;
张福炎 .
计算机研究与发展, 2000, (05) :513-520
[5]   Internet上的文本数据挖掘 [J].
王伟强 ;
高文 ;
段立娟 .
计算机科学, 2000, (04) :32-36
[6]   文本信息检索技术 [J].
邹涛 ;
王继成 ;
杨文清 ;
张福炎 .
计算机科学, 1999, (09) :72-75
[7]   中英文WWW搜索引擎的信息处理 [J].
蒋澄 ;
马范援 ;
蒋思杰 .
计算机工程, 1999, (04) :37-38