(新乡医学院, 河南 新乡 453003)
摘 要:文章简述了数据挖掘技术应用到高校图书馆个性 化服务中的几种关键技术,并通过分析其在高校图书馆工作中的应用,来说明数据挖掘对高 校图书馆发展的重要性。
关键词:数据挖掘;
高校图书馆;
个性化服务
中图分类号:G250.74 文献标识码:A 文章编号:1007—6921(2008)17—0200—02
随着数据库和网络技术应用的不断深入发展,Internet技术和Web技术的日益成熟,个性化 服务逐渐成为现代高校图书馆发展的重要趋势之一。个性化服务是根据对读者行为习惯、文 化层次和信息需求等信息的分析而主动地向用户提供可能需要的信息或服务。由此可见,如 何自动识别用户的信息、目标和计划是实现个性化服务的关键所在。
数据挖掘技术是信息识别、数据采集和数据处理技术的典型代表,能对图书馆所存在的潜在 信息以及读者的个人信息进行高效的分析并比较准确的预测其发展趋势,对于图书馆个性化 服务工作的发展和完善具有重要作用。因此,数据挖掘技术在高校图书馆个性化服务方面的 应用已经成为一种必然要求。
1 应用到图书馆个性化服务中的关键技术
1.1 关联分析
每个数据库中的数据之间都存在着一种潜在关联,关联分析的目的是从数据库中发现隐藏在数据间的关联,从而发现规则并应用到其他数据库中,在不知道 数据库中的关联函数或者不确定的情况下,通过关联分析抽取的规则便具有了一定的可信度 。例如:通过对读者借阅检索数据进行关联分析,可以发现读者在借阅文献时的其他借阅行 为。
1.2 聚类分析
聚类是根据一定规则将数据库中未分类的数据集划分为一系列有意义的集合。集合中的数据 具有共同趋势和模式。如果对同一个数据库采用的不同的聚类方法进行划分,则可能得到不 同的集合。在同一集合中,数据之间的差别较小,不同集合中数据之间差别较大。通过聚类 建立了宏观概念, 增强了人们对客观现实的认识[1]。
1.3 分类分析
分类是通过对样本数据库的数据进行分析,准确找出每个类别的概念描述或者建立分析模型 ,即这类数据库的分类规则或者决策树模式,然后用这个分类规则或决策树模式应用到同类 数据库中。是一种有指导的学习。分类方法可用于图书馆读者借阅日志数据的分析,从而得 出读者的借阅需求、借阅特征等信息。
1.4 预测分析
预测是通过对大量历史数据的分析,找出数据的变化规律,建立模型,并用此模型来预测未 来数据的种类、特征等。[1]典型方法是回归分析。例如,利用回归分析结合时间 序列分析对历史流通流量日志进行分析,可以推算出与往年相同时期的当前流通数量变化数 据。
2 数据挖掘在图书馆个性化服务方面的应用
随着网络和数据库技术的飞速发展和广泛应用,高校图书馆正在向信息化和数字化的方向 转变,近年来,我国高校加大了对图书馆的投资力度,图书馆的数据库和存储设备不断得到 扩充和扩容,网络和服务器得到进一步普及和升级。在这种自动化的网络环境下,数据挖掘 技术可以更好的完善高校图书馆个性化服务工作。
2.1 图书推荐工作中的应用
图书推荐工作是高校图书馆个性化服务的一个重要组成部分,是图书馆个性化服务的重要体 现之一。通过数据挖掘技术的应用,图书推荐工作可以做的更加有效和快捷。下面简单介绍 数据挖掘在图书推荐中的应用流程。
2.1.1 数据准备
数据的准备是数据挖掘的最基础的工作,没有数据,数据挖掘将无用武之地。通过对读者基 本信息数据库、读者借阅日志数据库以及其他涉及到读者各种信息的数据库进行选样、整理 、数据转换和预处理等数据处理,剔除无效和错误的数据,从而建立挖掘数据库,为数据挖掘做好数据准备。
2.1.2 数据挖掘和建立模型
对挖掘数据库应用关联分析等数据挖掘技术,得到读者的借阅习惯、兴趣模式和阅读趋势等 ,从而建立读者借阅行为模型。例如:通过对读者的借阅日志进行关联分析,可以发现读者 借阅一类图书同时的其他借阅行为和图书文献之间的关联。然后,计算这种关联规则的支持 度和置信度,从而建立借阅模式。需要强调的是:挖掘数据库是动态的,它是根据读者行为 或兴趣的改变而自动进行数据修改。
2.1.3 模型的测试
建立读者借阅模型以后,就需要测试模型的实用性和有效性。从原始数据库中选出一定比例 的数据对模型进行测试。通过读者模型得出的结果与原始数据进行比较,如果模型的准确率 大于既定的标准,说明模型有效,否则,就需要重新进行挖掘,建立新的读者借阅模型,直 到找到有效的模型为止。
2.1.4 结果的输出
通过测试以后,需要把有效的读者模型直观的表现在读者或者数据库管理者面前,这就需要 结合可视化技术,在读者或者图书管理者输入查询条件时,通过网页或者专门的数据挖掘系 统直观地输出查询结果。同时,也有利于数据库管理员或则决策者对数据库进行直接的数据 分析和操作,及时了解用户需求,发现用户的访问习惯和模式以及周期性行为特征,利用推 送服务通过图书馆网页为读者提供个性化服务。同时为优化数据库资源的管理和合理分配提 供决策支持。
2.2 采访工作中的应用
图书采访是馆藏建设和文献资源布局的首要内容,是高校图书馆重要的基础业务工作。目前 ,很多高校图书馆的采访工作是通过采访工作人员自己拟定然后交馆领导或者专业人员审阅 修改后进行采购,或者征集各个院系部分学科专家的意见进行采购,这样不可避免的带有很 大的主观意识和片面性。而且近年来国内外文献资源数量巨增,各种载体形式复杂多样,再 加上图书文献的购置经费有限,要在有限的购置经费下保证各个学科间的科学分配和各种文 献载体的均衡以及购书的质量是一个令人头痛的问题。
利用数据挖掘技术指导采访工作,可以轻松解决这些问题。例如,利用关联分析,对历史采 购数据和图书管理系统数据库的读者借阅日志进行分析,可以发现各类所藏文献间的潜在关 系和比例关系,以及读者的借阅习惯和兴趣模式,把信息及时反馈到采访部门,可以有效避 免采访书刊的比例失衡,而且可以根据读者个人需求进行采访工作;
利用分类分析,对图书 管理系统数据库的文献流通记录进行分析,可以轻易找出借阅频繁的图书类别和利用率较低 的图书类别;
利用聚类分析,对适合各类读者的图书进行分析,可以比较精确地得出采购的 书目,为采访工作提供有力的决策支持。
2.3 期刊工作中的应用
近年来,国内外期刊的种类逐年递增,载体多种多样,为期刊的采购增加了难度。再加上高 校各个层次的阅读者都有,要满足每个层次读者的阅读要求也是一个难题。数据挖掘技术提 供了解决这些问题的方法。利用分类分析对用户的借阅和查阅特征进行完全分类,找出潜在 的借阅模式,然后再利用这些模式通过网页或者检索界面为读者提供个性化服务,对潜在用 户进行推荐性服务;
基于信息论的决策树算法也可以应用到期刊工作中,决策树算法可以自 动从期刊读者每日的访问日志等数据中收集有用数据,通过分析建立决策树模型,从中可以 发现读者的访问模式和借阅习惯,了解读者的信息需求,掌握读者的个性化信息,从而为读 者提供个性化服务。利用Web数据挖掘技术对分布在互联网上的一些期刊信息进行采集、处 理和分类。建立自己的特色数据库,既减轻了期刊经费方面的压力,又丰富了图书馆期刊的 信息资源。
2.4 情报咨询工作中的应用
作为为高校广大师生以及学科专家提供及时有用情报信息的情报部门,在图书馆中占有至关 重要的地位。知识信息提供的是否及时有效是衡量情报部工作的一个标准。在当今网络化、 数字化的时代,高校图书馆情报部门与互联网的“亲密”接触,为情报部从网络上采集和分 析 有用信息和数据提供了方便。但是互联网上Web页面综合多样,所含信息浩如烟海,要想快 速而高效地检索到自己想要的知识是一个难题。
利用数据挖掘技术可以为情报工作部门提供了先进的信息资源管理工具,通过对全校不同学 科领域的有用数据和信息进行分类分析,可以自建特色数据库;
利用分类分析和聚类分析技 术结合人工智能的一些算法,对从互联网上检索的相关信息按照学科建设和科研方向等类别 进行分类,从而实现自动信息检索;
利用决策树算法建立模型,实现专业学科数据和信息的 完全分类。用户可以在很短的时间内检索到所需的信息和数据;
利用Web挖掘对互联网的Web 网页进行挖掘,Web挖掘可以根据需求自动从互联网上搜索相关网页,对这些海量数据进行 深层次分析,并保证数据的完整性和安全性。然后对检索结果进行聚类和分类分析。把从互 联网上检索的相关信息按照学科建设和科研方向等类别进行分类,然后根据专业类别、研究 方向或者其他分类要求动态直观地呈现到读者面前。这样,就大大节省了用户的时间,而且 也丰富了图书馆的馆藏资源。
2.5 网络技术工作的应用
高校图书馆的网络技术部门是数据库和网络技术运用最深入和广泛的部门。为了更加方便、 有效的为广大师生和有关科研人员服务,图书馆会购买国内一些大型数据库,例如:中国期 刊网、万方数据等综合信息服务商的全部或部分数据库;
根据本校的一些科研工作和发表论 文自建小型数据库;
或者从WWW上的有效数据链接下载与本校 学科建设有关的数据自建特色 数据库。利用数据挖掘技术可以对这些数据库的数据进行有效的信息组织和管理,并对信息 和数据进行深层次的分析、加工和处理,使之更好的为用户服务。例如,利用Web挖掘技术 可以对网络上的数据进行有效的导航和整合,从而使用户得到更加精确和有效的信息和数据 ,为优化数据库资源的管理和合理分配提供决策支持。
3 结语
随着数据库的不断扩容和网络技术在高校图书馆应用的不断深入,高校图书馆传统的工作方 式已经远远不能适应读者日渐增长的需求,个性化服务方式将正式登上高校图书馆这个舞台 。随着数据挖掘技术研究的发展和在高校图书馆的不断深入应用,相信不久的将来,高校图 书馆个性化服务将会得到不断完善和更快更好的发展!同时,也将推动高校图书馆的快速发 展,大大缩短高校图书馆的数字化进程。
[参考文献]
[1] 陈文伟,黄金才,赵新昱著.数据挖掘技术[M].北京:北京工业大学出版社 ,2002:3~4.
[2] 何少卓.浅谈数据挖掘及其在图书馆的应用[J].图书馆界,2004,9(3):52 ~54.
[3] 朱理达.图书馆信息管理与数据挖掘技术[J].河南图书馆学刊,2002,5(3) :60~61.
[4] 刘小东.数据挖掘在图书馆工作中的应用[J].情报杂志,2005,(8):63~65.
[5] 李志明,胡森树.数据挖掘及其在现代化图书馆中的应用[J].图书馆学研究, 2006,(6):39~41.