从文本病历中自动提取重要关联信息服务于临床决策、数据挖掘等各类临床信息系统,是当前临床信息化亟需的基础技术。由于自然语言表述的灵活性,信息自动提取涉及领域知识、语法知识和计算方法等多个方面的交叉,是医学语言处理研究的主要挑战。本论文在借鉴和吸收英文环境下的医学语言处理研究成果的基础上,探索性地提出一套中文文本病历信息抽取方法。该方法发挥了机器学习方法的适应性优势和基于语义的语法解析方法的准确性优势,并针对家族史结构化提取这个具有显著临床意义的问题进行验证。另外,本论文还结合各类医学信息标准和常用表示方案,提出了适用于本研究的病历信息表示方案。文本病历信息提取技术的成功,将克服临床决策支持、临床路径管理等前沿医疗信息技术发展所面临的诸多瓶颈问题,提升我国医疗信息技术产业的核心竞争力,具有显著的社会和经济效益。
本论文主要从以下几个方面开展工作:
首先,回顾医学语言处理技术新发展及其临床应用,分析中英文医学语言处理的相似性和特异性,进而总结英文医学语言处理值得中文借鉴的部分。
其次,由于中文医学术语库的规模小、覆盖率低,论文将侧重使用基于统计学的机器学习方法来解决医学问题自动识别问题。
然后,由于句法语料库的建立需要更加专业的语言学知识并且本论文的句子处理对象相对简单,论文将使用简单模式匹配的方法提取重要信息间的关系。
最后,以家族史为例,验证文本病历信息抽取方法的有效性。