基于SVM的中文组块分析

被引:47
作者
李珩
朱靖波
姚天顺
机构
[1] 东北大学计算机软件与理论研究所
[2] 东北大学计算机软件与理论研究所 辽宁沈阳
[3] 辽宁沈阳
关键词
计算机应用; 中文信息处理; 支持向量机; 结构风险最小化; 文本组块;
D O I
暂无
中图分类号
TP181 [自动推理、机器学习];
学科分类号
081104 ; 0812 ; 0835 ; 1405 ;
摘要
基于SVM(supportvectormachine)理论的分类算法 ,由于其完善的理论基础和良好的实验结果 ,目前已逐渐引起国内外研究者的关注。和其他分类算法相比 ,基于结构风险最小化原则的SVM在小样本模式识别中表现较好的泛化能力。文本组块分析作为句法分析的预处理阶段 ,通过将文本划分成一组互不重叠的片断 ,来达到降低句法分析的难度。本文将中文组块识别问题看成分类问题 ,并利用SVM加以解决。实验结果证明 ,SVM算法在汉语组块识别方面是有效的 ,在哈尔滨工业大学树库语料测试的结果是F =88 6 7%,并且特别适用于有限的汉语带标信息的情况。
引用
收藏
页码:1 / 7
页数:7
相关论文
共 4 条
[1]   基于增益的隐马尔科夫模型的文本组块分析 [J].
李珩 ;
杨峰 ;
朱靖波 ;
姚天顺 .
计算机科学, 2004, (02) :152-154+192
[2]   汉语基本短语的自动识别 [J].
张昱琪 ;
周强 .
中文信息学报, 2002, (06) :1-8
[3]   汉语句子的组块分析体系 [J].
周强 ;
孙茂松 ;
黄昌宁 .
计算机学报, 1999, (11) :1158-1165
[4]   基于转换的汉语基本名词短语识别模型 [J].
赵军 ;
黄昌宁 .
中文信息学报, 1999, (02) :2-8+40