学术探索
学术期刊
新闻热点
数据分析
智能评审
立即登录
一种基于EM非监督训练的自组织分词歧义解决方案
被引:14
作者
:
论文数:
引用数:
h-index:
机构:
王伟
钟义信
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学智能中心!#北京
钟义信
孙建
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学智能中心!#北京
孙建
杨力
论文数:
0
引用数:
0
h-index:
0
机构:
北京邮电大学智能中心!#北京
杨力
机构
:
[1]
北京邮电大学智能中心!#北京
来源
:
中文信息学报
|
2001年
/ 02期
关键词
:
EM算法;
分词歧义;
非监督;
D O I
:
暂无
中图分类号
:
TP391.1 [文字信息处理];
学科分类号
:
摘要
:
本文旨在提供一种基于非监督训练的分词歧义解决方案和一种分词算法。基于EM的思想 ,每个句子所对应的所有 (或一定范围内 )的分词结果构成训练集 ,通过这个训练集和初始的语言模型可以估计出一个新的语言模型。最终的语言模型通过多次迭代而得到。通过一种基于该最终语言模型的统计分词算法 ,对于每个句子至少带有一个歧义的测试集的正确切分精度达到 85 .36 % (以句子为单位 )
引用
收藏
页码:38 / 44
页数:7
相关论文
共 1 条
[1]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
←
1
→
共 1 条
[1]
中文文本自动分词和标注[M]. 商务印书馆 , 刘开瑛著, 2000
←
1
→