结合受控词汇表的生物基因本体标注与分类

被引:3
作者
崔舒宁
朱丹军
冯博琴
昂正全
机构
[1] 西安交通大学电子与信息工程学院
关键词
基因本体; 分类标注; 最邻近算法;
D O I
暂无
中图分类号
Q3 [遗传学];
学科分类号
071007 ; 090102 ;
摘要
通过研究有关基因的生物学文献特征,提出了一种能对生物基因文献进行自动标注与分类的方法.在K最邻近算法的基础上,采用了Chi-Square特征选择方案,并且在加权算法中突出了Chi-Square的选择特点.另外,采用文档逻辑分块法,将额外的生物受控词汇表中的信息所形成的向量直接引入到了分类算法中,以提高分类和标注的效果.实验表明,所提算法优于常用的单词频率/逆文档频率加权方法,其在文本检索大会(TREC)数据集上的分类、标注效果分别比TREC公布的最好结果提高了3.14%和4.12%.
引用
收藏
页码:171 / 174
页数:4
相关论文
共 1 条
[1]  
Abiological named entity recognizer. NARAYANASWAMY M,RAVIKUMAR K E. Proceedings ofPacific Symposium on Biocomputing . 2003