中文健康问句分类与语料构建

被引:9
作者
郭海红
李姣
代涛
机构
[1] 中国医学科学院医学信息研究所
关键词
健康问句; 问句分类; 语料构建; 公众健康; 信息需求;
D O I
暂无
中图分类号
R544.1 [高血压];
学科分类号
1002 ; 100201 ;
摘要
本文旨在构建一个中文健康问句分类方法,并通过对高血压相关的健康问句进行人工分类标注,分析公众的高血压相关健康信息需求,同时为研发高血压相关的智能中文问答系统提供语料基础。本研究基于临床问句分类及公众健康信息查询场景层次模型,构建一个四级中文健康问句主题分类方法,并由5位标注员独立地对从某中文健康网站上收集的将近10万条高血压相关提问数据中随机抽取的2000条样本数据进行人工分类标注,以优化和测试该问句分类方法的可靠性,构建标注语料库,并分析公众的高血压相关健康信息需求。5位标注员使用该分类方法进行独立标注的四级类目评判者间信度kappa值为0.63,意味着分类结果可靠,一级大类获得高度一致性(kappa=0.82),略优于国际上的同类研究。分布在治疗、诊断、健康生活方式、临床发现/病情管理、流行病学、择医六个一级类别中的问句分别占样本总量的48.1%、23.8%、11.9%、5.2%、9.0%和1.9%。所构建的健康问句分类方法可用于组织大型健康问题集,以提高检索效率;分类标注的样本问句可作为高血压相关健康问句自动分类研究的语料;得出的高血压相关健康问句主题分布有助于指导健康网站的知识资源建设。此外,所设计和采用的问句分类方法构建方式、语料标注流程、评判者间信度测量方法等,也可为开放领域及其他受限领域开展用户问句分类与语料构建提供借鉴。
引用
收藏
页码:39 / 49
页数:11
相关论文
共 27 条
[1]  
Toward a layered model of context for health information searching: An analysis of consumer‐generated questions[J] . Yan Zhang. &nbspJ Am Soc Inf Sci Tec . 2013 (6)
[2]   Use of UpToDate and outcomes in US hospitals [J].
Isaac, Thomas ;
Zheng, Jie ;
Jha, Ashish .
JOURNAL OF HOSPITAL MEDICINE, 2012, 7 (02) :85-90
[3]  
AskHERMES: An online question answering system for complex clinical questions[J] . YongGang Cao,Feifan Liu,Pippa Simpson,Lamont Antieau,Andrew Bennett,James J. Cimino,John Ely,Hong Yu. &nbspJournal of Biomedical Informatics . 2011 (2)
[4]   Automatically extracting information needs from complex clinical questions [J].
Cao, Yong-gang ;
Cimino, James J. ;
Ely, John ;
Yu, Hong .
JOURNAL OF BIOMEDICAL INFORMATICS, 2010, 43 (06) :962-971
[5]  
Interactive Use of Online Health Resources:A Comparison of Gonsumer and Professional Questions. Roberts K,Demnerfushman D. Journal of the American Medical Informatics Association . 2016
[6]  
Information Needs of Case Managers Caring for Persons Living with HIV.. Schnall R,Cimino J J,Currie L M,et al. Journal of the American Medical Informatics Association . 2011
[7]  
Question Answering in Restricted Domains: An Overview[J] . Diego Mollá,José,Luis Vicedo. &nbspComputational Linguistics . 2007 (1)
[8]  
GeneView: a comprehensive semantic search engine for PubMed[J] . Philippe Thomas,Johannes Starlinger,Alexander Vowinkel,Sebastian Arzt,Ulf Leser. &nbspNucleic Acids Research . 2012 (W1)
[9]  
Consumer Health Information Needs and Question Classification: Analysis of Hypertension Related Questions Asked by Consumers on a Chinese Health Website[J] . Indra Neil Sarkar,Andrew Georgiou,Paulo Mazzoncini de Azevedo Marques,Haihong Guo,Jiao Li,Tao Dai. &nbspStudies in Health Technology and Informatics . 2015
[10]  
中文问答系统中的问题分类研究[D]. 高艳影.合肥工业大学 2011