文本病历信息抽取方法研究

被引:0
作者
李莹
机构
[1] 浙江大学
关键词
信息抽取; 医学语言处理; 条件随机场; 句法语义分析; 知识表示;
D O I
暂无
年度学位
2009
学位类型
硕士
导师
摘要
从文本病历中自动提取重要关联信息服务于临床决策、数据挖掘等各类临床信息系统,是当前临床信息化亟需的基础技术。由于自然语言表述的灵活性,信息自动提取涉及领域知识、语法知识和计算方法等多个方面的交叉,是医学语言处理研究的主要挑战。本论文在借鉴和吸收英文环境下的医学语言处理研究成果的基础上,探索性地提出一套中文文本病历信息抽取方法。该方法发挥了机器学习方法的适应性优势和基于语义的语法解析方法的准确性优势,并针对家族史结构化提取这个具有显著临床意义的问题进行验证。另外,本论文还结合各类医学信息标准和常用表示方案,提出了适用于本研究的病历信息表示方案。文本病历信息提取技术的成功,将克服临床决策支持、临床路径管理等前沿医疗信息技术发展所面临的诸多瓶颈问题,提升我国医疗信息技术产业的核心竞争力,具有显著的社会和经济效益。 本论文主要从以下几个方面开展工作: 首先,回顾医学语言处理技术新发展及其临床应用,分析中英文医学语言处理的相似性和特异性,进而总结英文医学语言处理值得中文借鉴的部分。 其次,由于中文医学术语库的规模小、覆盖率低,论文将侧重使用基于统计学的机器学习方法来解决医学问题自动识别问题。 然后,由于句法语料库的建立需要更加专业的语言学知识并且本论文的句子处理对象相对简单,论文将使用简单模式匹配的方法提取重要信息间的关系。 最后,以家族史为例,验证文本病历信息抽取方法的有效性。
引用
收藏
页数:66
共 13 条
[1]
医学语言处理技术及应用 [J].
李昊旻 ;
段会龙 ;
吕旭东 ;
李莹 .
中国数字医学, 2008, (11) :11-13+30
[2]
中文病历文档术语提取和否定检出方法 [J].
李昊旻 ;
李莹 ;
段会龙 ;
吕旭东 .
中国生物医学工程学报, 2008, (05) :716-721+734
[3]
实体关系抽取的技术方法综述 [J].
徐健 ;
张智雄 ;
吴振新 .
现代图书情报技术, 2008, (08) :18-23
[4]
基于核函数中文关系自动抽取系统的实现 [J].
刘克彬 ;
李芳 ;
刘磊 ;
韩颖 .
计算机研究与发展, 2007, (08) :1406-1411
[5]
用语义模式提取实体关系的方法 [J].
邓擘 ;
樊孝忠 ;
杨立公 .
计算机工程, 2007, (10) :212-214
[6]
知识表示规范比较研究 [J].
何绍华 ;
王非 .
情报理论与实践, 2007, (01) :8-10
[7]
一种自举的二元关系和二元关系模式获取方法 [J].
姜吉发 ;
王树西 .
中文信息学报, 2005, (02) :71-77
[8]
实体关系自动抽取 [J].
车万翔 ;
刘挺 ;
李生 .
中文信息学报, 2005, (02) :1-6
[9]
Reconsidering the family history in primary care [J].
Rich, EC ;
Burke, W ;
Heaton, CJ ;
Haga, S ;
Pinsky, L ;
Short, MP ;
Acheson, L .
JOURNAL OF GENERAL INTERNAL MEDICINE, 2004, 19 (03) :273-280
[10]
Information extraction: Beyond document retrieval [J].
Gaizauskas, R ;
Wilks, Y .
JOURNAL OF DOCUMENTATION, 1998, 54 (01) :70-105