朴素贝叶斯算法与Bootstrapping方法相结合的中文物种描述文本语义标注研究

被引:9
作者
段宇锋 [1 ]
朱雯晶 [2 ]
陈巧 [1 ]
崔红 [3 ]
机构
[1] 华东师范大学商学院
[2] 上海图书馆上海科学技术情报研究所
[3] 美国亚利桑那大学信息资源与图书馆学学院
关键词
Bootstrapping方法; 朴素贝叶斯; 物种描述文本; 语义标注;
D O I
暂无
中图分类号
TP391.1 [文字信息处理];
学科分类号
081203 ; 0835 ;
摘要
【目的】降低中文物种描述文本语义标注的学习成本。【方法】设计基于Bootstrapping的弱监督学习方法,以少量数据为基础,迭代执行学习和标注过程。在迭代过程中,利用置信度最高的标注数据扩充知识库,提升标注能力。【结果】运用15 041条数据测试算法效率,F-value的平均值达到0.911 2。【局限】对过于稀疏的数据,标注效率相对较低。【结论】本研究设计的方法不仅有效降低系统学习对训练数据规模的要求,而且可提高标注效率。
引用
收藏
页码:83 / 89
页数:7
相关论文
共 6 条
[1]  
基于贝叶斯分类的中文物种描述文本的语义标注研究[J]. 段宇锋,黑珍珍,鞠菲,崔红. 情报学报. 2012 (08)
[2]   基于自主学习规则的中文物种描述文本的语义标注研究 [J].
段宇锋 ;
黑珍珍 ;
鞠菲 ;
崔红 .
现代图书情报技术, 2012, (05) :41-47
[3]   结合自助抽样的动态数据流贝叶斯分类算法 [J].
琚春华 ;
殷贤君 ;
许翀寰 .
计算机工程与应用 , 2011, (08) :118-121+142
[4]   基于Bootstrapping的本体标注方法 [J].
罗军 ;
高琦 ;
王翊 .
计算机工程, 2010, 36 (23) :85-87
[5]  
机器学习[M]. 机械工业出版社 , (美)TomM.Mitchell著, 2003
[6]  
Improving predictive models of glaucoma severity by incorporating quality indicators[J] . Lucia Sacchi,Allan Tucker,Steve Counsell,David Garway-Heath,Stephen Swift. Artificial Intelligence In Medicine . 2013