基于聚类的语料库分词评价方法研究

被引:4
作者
宋礼鹏
郑家恒
机构
[1] 山西大学计算机科学系
关键词
分层抽样; 相似性因子; 样本聚类; 评价函数;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
摘要
对大规模汉语文本语料库分词正确率的评价提出了新的见解 ,即在分层抽样基础上对文本样本进行聚类 .通过聚类可提高检验精度或减少样本量 .该方法采用了一种新的样本相似性度量公式 ,该公式综合考虑了样本向量间的距离和样本向量各分量之间的线性相关性 .通过对聚类结果的动态评价 ,调整聚类的类别数和相似性因子 ,提高了聚类的效率和质量 .实验表明该方法在评价大规模语料库分词正确率时取得了很好的效果
引用
收藏
页码:192 / 196
页数:5
相关论文
共 6 条
[1]  
现代模式识别.[M].孙即祥等编著;.国防科技大学出版社.2002,
[2]  
方差估计引论.[M].(美)[K.M.沃尔特]KirkM.Wolter著;王吉利;李毅主译;.中国统计出版社.1998,
[3]  
抽样调查理论与方法.[M].冯士雍等编著;.中国统计出版社.1998,
[4]  
调查中的非抽样误差.[M].(美)[J.T.莱斯勒]JudithT.Lessler;(美)[W.D.卡尔斯贝克]WilliamD.Kalsbeek著;金勇进主译;.中国统计出版社.1997,
[5]   分层抽样技术在应收账款审计中的应用 [J].
杨俊龙 ;
金勇进 .
经济经纬, 2002, (05) :88-90
[6]   一种基于向量空间模型的多层次文本分类方法 [J].
刘少辉 ;
董明楷 ;
张海俊 ;
李蓉 ;
史忠植 .
中文信息学报, 2002, (03) :8-14+26