医学图书馆图书数据挖掘与应用

(整期优先)网络出版时间:2016-11-21
/ 3

医学图书馆图书数据挖掘与应用

耿青

青岛大学附属医院山东青岛266000

摘要:本文概述了医学图书馆数据挖掘技术的概念和特点,阐述了医学图书馆数据挖掘的任务、方法以及在图书管理决策、个性化服务等在图书馆建设上的应用,探讨了医学图书馆数据挖掘在临床医疗、医学科研中的价值。

关键词:医学图书馆;数据挖掘;图书管理;临床医学

现代医学图书馆已经不是以借阅书刊和分类管理为主要服务内容,而是与医学相关的教学、科研、临床、技术和医院管理人员为主要服务对象的综合性医学信息服务,能够针对在海量数据和信息中有目标的对其知识需求、帮助其解决具体问题的信息和知识服务,这迫使医学图书馆的服务功能发生转变。要实现具有前瞻性、实用型、先进性的医学信息和整合型的医学信息服务功能,数据挖掘为实现这一目标提供了保障。

1.数据挖掘的概念与特点

1.1数据挖掘的概念

数据挖掘(DataMining)就是从大量的数据中揭示出隐含的并具有潜在价值的知识的过程,它包含分类、回归分析、聚类分析、关联分析、预测等多种分析方法。其主要特征就是在大型数据库中,自动的发现有用信息的过程。换言之,数据挖掘就是一个知识发现、整合和运用的过程[1]。虽然目前为止有关数据挖掘的概念仍有许多争论,但归根结底就是一个从海量数据寻找规律的技术和获取有价值、有意义信息的过程[1、2]。至目前为止数据挖掘所采取的技术主要是数据预处理、预测建模、可视化、关联分析、聚类和异常检测等技术手段,将数据库中的大量数据进行抽取、转换分析和其他模型化处理,从中提取对临床医疗、科学研究和图书管理决策的关键性数据[3]。在医学数据挖掘中除揭示一般数据的知识价值以外,还有若干主观的和个性的数据,比如,临床症状与证候、主观感觉与客观实质等问题,所以医学数据挖掘更具有复杂性和特殊性,需要在关联分析的基础上进行相对概率密度分析,并必须在医学上有所解释。

1.2医学数据的特点

医学数据是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。有研究指出医学数据具有异质性、多样性、不完整性、时效性、隐私性、冗余性[4、5]等特殊性。这种描述提出了医学数据挖掘的基本特性,但尚不完整。作为医学数据应当还具有其学科广泛性和资源的复杂性。细加分析就不难看出医学数据基本上包括了所有学科的范畴,看起来没有关联,很可能就在医学领域得到应用。医学数据不仅仅是分类问题,还有来自症状与证候的主观特征,症状之间和证候之间以及症状和证候之间的联系十分复杂和重要。这就有别于其他学科,构成了医学数据更具复杂性特征,因此在数据挖掘上应当注重其内在的关联分析。由于上述这些特性的存在,在医学数据挖掘上跟挖掘其它类型的数据库相比,亦具有其自身的独特性。医学数据首先是以治愈患者为目的而搜集的,其次才是用于医学研究资源,因此医学数据不仅具有模式的多态性,还存在症状与证候的主观性。

1.3医学图书馆数据挖掘的任务

作为医学图书馆数据挖掘主要任务,一是预测任务,任务的目标是根据其他属性的值,预测特定属性的值。被预测的属性一般称为目标变量或因变量而用来做预测的属性,说明变量或自变量;二是描述任务,其目标是导出概括数据中潜在联系的模式。描述性数据挖掘任务通常是探索性的,并且常常去要后处理技术验证和解释结果[6];三是建模任务,根据医学数据的特征建立相关的模型,包括搜寻模型、分析模型、聚类模型、特征标记模型等,以提高预测效果,并注重对数据集中特征和标记的内在联系进行分析;四是将被挖掘的数据变为信息。数据本身不是信息,而是有待理解的原材料,只有将挖掘出来的数据变为有效的信息,才具有价值和使用价值。与此同时这些模型的建立既要符合医学数据的物理意义,又要注重医学数据中大量存在的症状与证候的特征。在医学数据的关联分析、聚类分析、分类、预测、时序模式和偏差分析时,采用多标记医学数据特征选择,得出的结果必须在医学上是可解释的,这样才能认为此种方法的预测才是真实可信的[7],才能为读者提供有效信息,为科学研究提供可靠数据和科研线索,为临床疾病诊断和治疗提供科学决策,为提高医学图书馆信息管理水平提供决策依据[5]。

1.4医学图书馆数据挖掘方法

数据挖掘是一个知识发现的过程,一般认为数据挖掘是一门集统计、机器学习、数据库、神经网络、模糊数学等相关技术的交叉学科。是一个从大量的、模糊的、不完全的、随机的数据中识别潜在的、有价值的并且能被人理解的数据处理过程[8]。核心的数据挖掘技术包括决策树算法、回归与时序算法、人工神经网络、关联规则和聚类分析。由于医学数据存在模式的多态性、不完整性、时间性和冗余性的特点,有报道指出[9]医学数据挖掘的关键技术为利用数据预处理技术,以确保医学数据库中那些大量模糊的、不完整的、带有噪声节冗余的信息数据的一致性和确定性;利用数据收集技术将那些多态性医学信息数据整合到一起,使其在属性上趋同或一致;利用数据归约与鲁棒的挖掘算法,从原来庞大的数据库中获得一个精简的数据集合,从而提高数据挖掘的效率。同时,由于医学数据库的类型较多,又是动态变化的,要求挖掘算法具有一定的容错性和鲁棒性;由于医学数据的挖掘的主要目的是为医疗活动和管理提供科学的决策,因此必须保证挖掘算法所提供的知识具有较高的准确率和可靠性。有研究指出,利用K-means算法可以实现对读者和图书的聚类分析分析,可以了解读者对图书馆服务的使用程度及图书借阅率,根据聚类结果指导图书馆管理和对读者个性化服务。应用改进的Apriori算法可以发现那些容易被人们忽略的潜在的规律,并且能够在个性化服务方面得以实际的应用[10]。与此同时,由于医学数据的特殊性,通过多标记学习和特征选择与医学数据结合,通过多标记学习对医学数据建立预测模型,进一步使用特征选择手段提高模型的预测效果,并对数据集中特征和标记的内在联系进行分析更具有合理性[7]。

目前,在数据挖掘中比较著名的挖掘工具有IBMIntelligentMiner、SASEnterpriseMiner、SPSSClementine等,它们都能够提供常规的挖掘过程和挖掘模式,在操作的简易性、工具的开放性和可伸缩性方面各有特点。其它常用的数据挖掘工具还有LEVEL5Quest、MineSet(SGI)、Partek、SELearn、SPSS的数据挖掘软件Snob、AshrafAzmy的SuperQuery、WINROSA、XmdvTool等。

2数据挖掘在图书馆建设上的应用

2.1基于数据挖掘的图书管理决策

数据挖掘在数据组织与分析和知识发现以及信息深层次挖掘等方面体现出整体优势。随着图书馆自动化程度的不断提高,自动化管理系统每天都要产生大量的统计数据[11],利用决策树和关联规则的数据挖掘方法对图书流通和图书采编工作具有决策支持作用,可以指导图书馆的各项工作,并在图书管理中运用利用数据挖掘技术对未来的数据进行预测和估算,使图书馆的馆藏资源得以进一步优化和利用,使管理水平和服务质量得到进一步提高。有研究指出[12]在图书馆管理中,数据挖掘技术可以准确定位图书馆的发展,在图书馆管理中使用数据挖掘技术,可从数据库中的知识抽取有效、新颖、实用价值高的信息,并可以及时发现图书馆文献管理方面的不足,并加以纠正和改进。

2.2数据挖掘为个性化服务提供了可能

个性化信息服务是未来专业化图书馆服务的主流模式。个性化信息服务不仅需要针对不同的用户提供不同的服务,更重要的在于发现用户的潜在需求进行主动的信息服务,对用户需求和兴趣的了解是个性化信息服务的前提,而数据挖掘,特别是Web数据挖掘,为解决此问题开辟了一条道路,可以多方位实现web个性化服务[12]。

要实现信息化图书馆“以信息找人,按需服务”的个性化信息服务的本质,数据挖掘是关键技术,利用数据挖掘建立个性化信息服务的实现模型、个性化信息服务系统运行的基本流程,构筑个性化的网络信息智能挖掘系统,对图书馆的信息资源进行优化,以获取网络特色化信息、专题化信息等个性化信息。在此基础上,深入大数据的数据挖掘,可实现从数据的个体研究变为数据系统研究、从数据的被动验证变为主动发现,才能从真正意义上实现个性化信息服务图书馆。

2.3为临床医学提供服务

为医学临床提供有效的信息服务是医学图书馆最根本的职能之一,因此数据挖掘首先要围绕医学临床服务,利用数据挖掘技术对正常人的各项体征数据和生物数据、病人的数据或各种疾病的数据,以及症状与证候各项指标及其关联分析、聚类分析、偏差检验与控制,评估所得到的知识对医学数据挖掘的结论进行医学解释[13],并与最初的研究目标相比较。追溯整个数据挖掘过程中可能存在错误的步骤,并且寻找其解决的方法。通过使用各种挖掘方法,选择最佳的算法,得到最有效的模型,建立专病数据库和数据挖掘对疾病进行专病分析,帮助医生进行更加快速和准确的诊断,为临床医学服务。从海量的医学信息中提取有价值的知识和规则,以智能的方法来处理和分析科学实验或临床研究数据,从而为疾病的诊断和治疗提供科学合理的依据,为临床医学服务。

近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。利用InformationDiscovery进行数据挖掘,已应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等医学领域。国外有人从异构和分布式基因数据的语义集成、DNA序列间相似的搜索和比较的同时发现基因序列的识别,发现在疾病不同阶段的致病基因等方面阐述了数据挖掘在DNA数据分析领域中的应用问题。与此同时,在利用归纳逻辑编程,根据氨基酸序列信息预测蛋白质第二结构、从医学诊断的角度阐述了统计或模式识别方法、符号法则的归纳学习、人造神经网络3类机器学习算法在医学领域中的应用、针对心电图、脑电图等医学推测信号的分析,提出使用决策树来初始化神经络,以提高对测试样本的分类准确率、应用神经网络技术为药品开发进行蛋白质分析、对聚类技术在患者术后康复问题分析等研究均取得重大进展。在国内,有人利用利用数据库和数据挖掘技术建立的恶性血液病数据库分析系统,其成果不仅可辅助医生做出初步诊断而且对数据具有强大挖掘和分析功能。还有人研究了机器学习的分类方法logitBoost在判别分析中的应用,提出了在医学领域中的应用前景。分析可见,数据挖掘在医学上的应用有其自身的优势和对医学进步的贡献。随着电子书刊和电子病历的推广,用计算机存储技术在医院已经比较普遍。如果各医院将收集的数据进一步汇总,数据总量是相当大的,而且大都是相对真实的数据。从这样的数据集中运用各种数据挖掘技术了解各种疾病之间的相互关系、各种疾病的发展规律,总结各种治疗方案的治疗效果,以及对疾病的诊断、治疗和科学研究都是非常有价值的。

2.4为医学科学研究服务

医院图书馆是为医学科学研究提供有效信息基地,现代海量的科研信息已远远超出科研人员的理解和分析能力,传统的统计技术和数据管理工具已无法满足科研人员的需要。数据挖掘技术在处理海量数据时显示出了其独特的优点和优势[14],为实现医学科学研究的数据与信息处理提供了可靠保障,它可以利用数据挖掘技术建立若干专业模型和系统挖掘工具,针对目标提供相关的信息。首先在科研选题方面,可以利用数据挖掘了解医学科研的属性,进而在海量数据中锁定目标,确定选题[15],比如疾病的诊断的价值规律研究,就可以建立相应的模型,得到适当的算法,借助数据挖掘技术来研究疾病诊断的规律;在遗传基因研究中,海量的基因数据必须借助良好的系统模型将基因数据进行有效地存储、分析和挖掘,才能从大量的DNA数据中找到具有统计特异性的序列,获得大量有价值的知识。数据挖掘技术在了解医学科研的属性、确定研究课题、充分利用数据仓库的数据、挖掘医学科研所需的信息等方面有重要作用。

在科研管理方面,数据挖掘可以为管理者提供可靠的决策支持,科研工作中的论文、论著和课题与医生自身素质之间有何种关联规则,同时在科研立项论证、科研目标管理、风险管理、科研数据分析、科技成果评估、科研发展规划制定[14、16],以及提供不同的专业模型和数据工具为科研人员遴选,同时可以避免低水平重复研究,造成资源和资金的浪费,实施有效地宏观调控。

在科技成果评估方面,目前的查新检索和同行专家评议评估方法不具备可靠性和先进性,其原因是人为因素太多,缺乏可靠的客观判断标准。因此采取数据挖掘技术,针对某一领域、某一科研成果,进行数据采集和数据挖掘,可以实现对课题的内部比较和外部比较[17],为评议专家提供客观的评价指标和评判标准,真是反应其成果的客观水平。

参考文献:

[1]吴菁.数据挖掘在图书管理中的应用研究[J].农业图书情报学刊,2015,37(2):54~57

[2]张圆圆.数据挖掘技术在高校图书管理中的应用[D].电子科技大学,硕士生论文,2008.

[3]付开远,等.数据挖掘在高校图书馆服务工作中的应用[J].医学信息,2011,24(1):262~264

[4]左翔.医学数据挖掘探究与应用[J].中国农村卫生事业管理,2011,31(3):268~270

[5]朱凌云,吴宝明.医学数据挖掘的技术、方法及应用[J].生物医学工程,2003,20(3):559~562

[6]范明,范宏建.译.数据挖掘导论[M].人民邮电出版社,北京:2011.第二版:4Pang-NingTanMichaelSteibachVipinKumar

[7]王亚磊.多标记医学数据特征选择的研究[D].同济大学,硕士论文,2011.

[8]AlexBerson,StephenSmith,KurtThearling应用[M].北京:人民邮电出版社,2004.

[9]方胜吉.浅谈医学数据挖掘技术[J].硅谷2010(20):180~181

[10]孙建波.数据挖掘技术在高校图书馆中的应用[D].南京理科大学,研究生论文,2009.

[11]李爱玲.数据挖掘为图书管理提供决策支持[J].中国管理信息化,2012,15(9):113~114

[12]刘秉岩.数据挖掘在图书管理方面的应用[J].企业改革与管理,2015:(23):66

[13]王华,等.数据挖掘在医学上的应用[J].安徽医药,2008,12(8):746~748

[14]徐守军,等.数据挖掘技术在科研管理中的应用前景[J].中华医学科研管理杂志,2005,18(4):214~216

[15]梁瑜,洪嘉铭,邝国庭.数据挖掘技术在医院科研信息服务中的应用探讨[J].国际医药卫生导报2005(9):63~65

[16]朱东华,杨丹丹,袁军鹏.数据挖掘技术在科研成果评估系统在的应用[J].科学学与科学技术管理,2005,26(1):31~33

[17]白红莉,等.数据挖掘在科研实验中的应用研究[J].装备指挥技术学院学报,2002,13(5):47~62