知识图谱(Knowledge graph)是大数据时代进行知识管理和应用的重要数据资源,已经成为搜索引擎语义检索和各领域基于知识的推理和决策的关键技术基础。作为语义网络的重要成员,知识图谱使得大规模知识的存储更为规范,应用更加高效。知识图谱中往往包含各类实体及其属性,以及各种实体之间的语义关系。知识图谱的构建包括诸多具体技术环节,如命名实体获取、关系抽取、数据融合、知识推理和知识图谱表示等,而本体是知识图谱的概念模型表示的主要方法。在Web搜索和通用领域,已经形成了多种大规模的知识图谱库,但医学与中医领域的知识图谱的构建仍处于起步阶段,虽然已有较大规模的医学本体库,但专门的医学特别是中医知识图谱库的构建研究仍较少,由此较大程度阻碍了中医概念知识的信息应用和共享。因此,本文通过整合多种数据资源,就以症、证、病和药等为主要实体的中医健康知识图谱的构建进行研究,主要研究内容与结果包括如下两个方面:(1)面向中医领域中主要的概念实体如症状、证候、疾病和中药等的知识图谱构建问题,设计了相应的图谱模式(Schema),确定了该图谱的基本类别、类别属性和语义关系。在此基础上,通过处理和整合四种不同的数据源(包括百度百科知识库、脾胃病临床病例数据、病症分类数据和现有西医本体),利用信息抽取和相关性分析进行不同数据来源的知识抽取,并采用基于属性向量的实体对齐方法进行不同源数据的知识融合,形成了包含4类实体(3927种症状,2128种疾病,450种证候和572种中药)和5种语义关系的中医健康知识图谱。最后,本文通过利用Jena数据生成功能,进行了知识图谱OWL表示和数据生成。(2)本文还通过Protege本体编辑器对中医知识图谱中的实体及其关系增加了约束限定,并利用Protege将知识图谱中部分知识进行图形化展示。最终在形成的知识图谱基础上,利用开源工具包Jena以及依据中医诊疗逻辑设定的推理规则进行了基于知识图谱的知识推理示范分析和应用,分析结果表明具有一定的可行性和诊疗应用价值。本文中医知识图谱构建研究重点对知识表示和多种数据来源的融合进行了探索性研究,但在知识推理应用和知识学习方法方面仍有待进一步深入,此方面将在后续研究中进行完善。