中药提取工艺文献知识组织方法研究

被引:0
作者
杨阳
机构
[1] 中国中医科学院
关键词
知识组织; 综合评价; 中药; 提取工艺;
D O I
暂无
年度学位
2011
学位类型
博士
导师
摘要
1研究背景 目前中医药信息以幂次方增长,使用户真正需要的知识湮没于浩瀚的信息海洋中,百度、Google等搜索引擎的出现在一定程度上缓解了知识获取难的问题,然而由于缺乏高效的知识组织方法支撑,知识不能便利的为用户所用成为信息利用研究无法逾越的障碍,彰显了进行知识组织方法研究的迫切性;然而当前知识组织研究仍然停留在以文献单元为基础的发展阶段,未在理论和实践上取得重大突破,更加剧了信息占有量和知识利用之间的矛盾,因此本研究将以中药提取工艺文献知识为例进行组织方法学上的探讨。 2研究思路 知识组织的目的是提供优质的知识服务,因此本研究以科研人员的潜在需求为导向,分别对中药提取工艺文献知识进行了以数据单元和知识单元为基础的组织实践:以数据单元为基础的组织实践,主要是对中药提取工艺文献进行知识抽取、知识重组、知识存检等初步组织活动;以知识单元为基础的组织实践,主要是对科研人员感兴趣的关键知识点“影响因素”寻求合适的评价方法进行知识再组织,组织结果可为用户提供多篇同类文献中各个提取影响因素的综合分析结果。 3研究内容 本研究进行的知识组织方法实践分为四个阶段来完成:一是在需求基础上确定知识组织实践对象;二是实施以数据单元为基础的知识组织方式,对非结构化文献知识进行初步组织;三是实施以知识单元为基础的组织方式研究,选择合适的评价方法进行知识再组织;四是对知识组织实践结果进行讨论分析。 下面将分别阐述知识组织方法实施的四个阶段: 第一阶段:确定知识组织对象 本阶段以需求为导向确定组织对象。本研究在确定知识组织对象时遵循了三个原则:一是寻求科研人员的兴趣点和需求,使研究工作更有意义;二是文献知识环境稳定类似,为数据的再组织分析减少困难;三是具备一定量的科研型数据,科研型数据是开展深层次知识服务的数据基础。 首先,本研究从“中国引文数据库”中检索统计2007年中药类期刊文献(共30510篇)的下载量,下载量高在很大程度上反映了科研人员对此领域的关注程度,本研究对下载量排名靠前100名的热点文献进行主题内容分类,其中“中药提取工艺类文献”占40%,是前100篇热点文献中科研人员最感兴趣的文献类型,同时此类文献的数据环境稳定、主题因素相近,因此本研究最终确定“中药提取工艺文献”为知识组织对象。 然后本研究从中国中医药期刊文献数据库和中国生物医学文献数据库(CBM)中检索“中药提取工艺类文献”共12645篇,制订文献筛选原则剔除不符合要求的文献;另外,考虑到要针对多个作者对同一中药成分提取影响因素的不同观点进行综合分析,因此要求对同一中药成分的提取研究达10篇以上方可作为目标文献,最终共获得1299篇中药提取工艺文献作为本次知识组织的具体对象。 第二阶段:知识抽取 此阶段是对1299篇中药提取工艺文献进行相关知识点的抽取,为后期知识再组织创造条件,属知识的初步组织阶段。 本研究首先对抽取内容进行设计分析,其次为知识抽取工作定制了采集系统,以完成对中药提取工艺文献知识的重组和知识存检,最终本研究抽取了包括关键知识点“影响因素”在内的相关知识点29个,共涉及了61个中药成分、44个来源中药的提取工艺信息。 本研究通过实施以数据单元为基础的知识组织方式,满足了科研人员快速查阅浏览中药提取工艺文献信息的需要,从检索层次上提高了知识获取效率,然而这种组织形式只能提供相关事实、数据的罗列,远不能触及到知识组织的真正内核,不能满足用户从利用知识层次上获取知识的需要,亦无法为科研人员提供现有文献数据导向基础上的综合评价和参考建议,因此必须寻求新的方式推进知识组织工作。 第三阶段:知识再组织 此阶段是对中药提取工艺文献关键知识点“影响因素”进行知识再组织,目的是通过一定的方法为用户批量整合同类数据,并快速提供综合的参考结果。 以知识单元为基础的知识组织方式处于初级发展阶段,未找到明确的理论实践指导;而知识单元的单体存在状态又模糊不确定,使实际操作困难重重。鉴于此,本研究认为知识单元虽从物理载体上难以衡量确定,但可从功能实现的角度开展研究。本研究认为知识单元层次的组织特点一是要深入知识内核,对文献所含内容进行分析,找到知识生产创造过程中的关键数据,并以人类创造利用知识的特点组织知识,二是以知识本身为单位,为人们直接提供问题的解,无须他们再投入大量精力去寻找、权衡、比较、分析便可得到他们需要的综合分析结果。 在中药提取工艺文献中,每篇文献作者都对关键知识点“影响因素”的种类进行了研究,并对其影响程度的大小赋予了秩次排序,作者不同,其所认为的影响因素的总体组成及各个因素的排序也不同:此类知识以观点秩次排序的方式呈现,如何才能综合考察同类文献中对同一中药成分提取各个影响因素的综合作用呢? 本研究根据研究目的通过选择一定的评价方法计算各个影响因素的综合影响作用,为用户提供所有相关文献各个影响因素的综合秩次大排序。本研究选择了Topsis法、频数统计方法、秩和比三种方法分别进行综合评价的预试验,结果表明频数统计法只能代表有多少个作者认为某影响因素有作用,能在一定程度上体现该影响因素的影响覆盖范围,但在影响力度的表现性上较差,无法量化表达该影响因素的综合影响力度,尤其是无法处理频次相同而又存在着较大差异的影响因素比较上。Topsis法虽然可以量化表达影响程度,但对实验设计方法的一致性要求比较高,本次预实验中选用了为大部分作者所使用的方差分析值参与运算,但仍有不少文献由于未使用方差分析而不能采集到均差值;另外,从各篇文献中采集到的均差值由于作者对多指标处理方式的不同,导致计算方法和计算结果都存在一定差异,另外Topsis法不能有效的排除异常值的干扰,并且计算步骤相对繁琐。而秩和比法则克服了其它两种方法的明显缺陷,而且根据研究目的只需得到各个影响因素的秩次便可参与秩次计算;同时,从三种方法的计算结果来看,秩和比法和频数统计法的计算结果相近,在一定程度上得到相互验证,因此本研究最终采用秩和比方法对“影响因素”进行再组织,为科研工作者提供各个影响因素的综合影响作用排序。 第四阶段:组织结果分析 本次研究结果主要包括四个部分:一是通过以数据单元为基础的实践完成了对1299篇中药提取工艺文献的知识抽取,满足了用户检索层次上的信息查询需要;二是对61种同中药来源的中药成分提取的“影响因素”通过秩和比方法进行知识再组织,获得了多篇文献中有关61种中药成分各个提取影响因素作用的综合大排名,可为用户直接提供经综合分析后的各个影响因素的综合影响力度,是以知识本身为单位进行的一次以知识单元为基础的组织方法实践;三是本研究还利用频数统计法计算得出科研人员较为公认的某项“最佳提取工艺”具体的操作方式;四是开发了2个系统软件以辅助课题的研究工作。另外,本研究所得结果是在当前文献量基础上得出,因此只是为科研人员提供数据参考,更准确的结论应在更有针对性的实验中获得。 4创新点 本研究的创新性贡献在于通过秩和比评价方法对以秩次排序方式呈现的知识、具备一定的研究型数据、知识环境相近的文献知识类型进行了组织实践,可帮助用户从多篇同类文献中快速得到关键问题的综合分析结果及参考建议,是从以数据单元为基础的组织方式向以知识单元为基础的组织方式转变的初步尝试,在中医药信息领域未见此类知识组织方法的实例研究。 5研究意义 本研究重点从实践的角度探索了中药提取工艺文献知识的组织方式,体现在方法学研究上,是对非结构化文献知识进行的一次以知识单元为基础的组织方法实践,为中药文献知识组织、服务提供了研究基础;体现在数据利用方面,本研究在组织同类文献知识的基础上,通过秩和比方法对关键知识点中药成分提取“影响因素”进行了深层次的再组织利用,对从数据采集到数据如何综合利用方面做出了积极的探讨;体现在数据服务方面,所提供的各个影响因素的综合影响程度排序,可为科研人员感兴趣的问题提供知识本身层次上的参考建议。 6小结 本项研究从需求分析、知识抽取、知识重组、再到知识存检、知识再组织以及结果讨论,每一步都对知识组织研究做出了积极的探索和尝试,积累了一定的经验,为中药类知识组织方法研究提供了有意义的方法学上的探索和实践应用范例。
引用
收藏
页数:106
共 64 条
[1]
基于知识元的领域知识服务体系的研究与实现 [D]. 
于杨 .
大庆石油学院,
2009
[2]
图书馆知识服务平台构建研究 [D]. 
邢军 .
东北大学,
2006
[3]
情报研究工作中知识地图和知识库的构建研究 [D]. 
王新昊 .
南京理工大学,
2005
[4]
国内知识组织研究进展 [J].
卢文辉 .
情报探索, 2009, (03) :34-36
[5]
基于本体的知识组织和知识检索 [J].
陆敏 ;
杨发毅 ;
彭骏 .
现代情报, 2009, 29 (01) :144-147+150
[6]
中医药的地位——知识的视角 [J].
吕乃基 .
中华中医药学刊, 2009, 27 (01) :24-26
[7]
我国知识组织研究状况分析 [J].
焦丽 .
图书馆学刊, 2008, (04) :126-129
[8]
国外知识组织技术研究的现状、实践与热点 [J].
王兰成 ;
敖毅 ;
曾琼 .
中国图书馆学报, 2008, (02) :93-97
[9]
语义网格环境下数字图书馆知识组织理论、方法及其过程研究 [J].
毕强 ;
牟冬梅 .
图书情报工作, 2007, (08) :6-9+20
[10]
我国知识组织研究述评 [J].
吴晖 ;
徐丹琪 .
情报杂志 , 2007, (06) :95-97