一种柔性策略的图书信息自动采集研究
党小琴
(陕西学前师范学院,陕西 西安 710100)
基金项目:陕西省社科界2020年重大理论与现实问题研究年度项目(2020Z113)
作者简介:党小琴(1972—),女,馆员,主要研究方向为图书情报,niyihe722@163.com.
摘要:针对目前图书信息采集速度慢、个性化推荐效率低等问题,提出了一种基于柔性策略的混合推荐(Doc2vec)算法,将图书信息划分到不同的象限进行归纳,并利用双重判定方法降低数据的波动程度。以某网站所提取的用户图书数据和评价数据为研究对象,分别对不同算法的评价准确率和推荐准确率进行了对比分析。研究发现:采用柔性策略的混合推荐算法的评价准确率RMSE值为0.2~1.0,而传统算法的RMSE值最大接近2.5,最小为0.4;传统算法的推荐准确率为0.08%~0.09%,柔性策略混合推荐算法的推荐准确率为0.14%~0.16%。采用柔性策略的混合推荐算法大幅度提高了图书信息的采集效率和推荐准确率。
关键词:图书馆;信息采集;个性化推荐;柔性策略
中图分类号:G250 文献标识码:A 文章编号:2095-509X(2021)06-0121-04
信息化时代中,海量的数据充斥着人们的生活,在信息大爆炸时代背景下如何合理地获取知识是值得探讨和需要解决的问题[1]。以图书信息为例,传统的知识信息获取方式在效率和精准度上已经无法满足人们快节奏的要求,如何在短时间内获取图书信息是亟需解决的问题,这样可以有效缩短搜索时间,提高借阅体验感[2-3]。
近年来,关于图书馆信息技术方面的研究成果虽然较多,但是大多数研究成果集中于图书管理系统的改良和图书信息的收录,少部分研究成果会涉及到图书信息的采集与过滤,相关研究不够深入[4-6]。目前来看,图书信息管理方面的研究存在如下问题[7-9]:1)图书信息不够精确,较为粗糙的算法无法打磨出精准的信息展示平台,导致用户黏性较低;2)启动方式不智能,目前主流的信息启动方式为冷启动,分为物品冷启动和用户冷启动,刚接触系统的用户由于在系统中没有留下任何浏览记录,系统无法计算出用户是否对某一门类书籍感兴趣;3)图书信息的多样性欠缺,现有的图书管理信息系统主要对与用户感兴趣图书的类似文献进行集中推荐,缺乏扩展,用户易产生查阅疲劳,对于用户来说,单一推荐他们感兴趣的书籍无法对搜索结果进行解释,也无法达到最佳的用户体验。
本文提出了一种基于柔性策略的用户信息优化图书推荐方法,将其用于图书信息的自动采集和优化筛选,该方法能够提高信息采集的速率和信息推进的精准度。
1 柔性策略优先级算法
1.1 常用算法简介
目前,关于优先级推荐算法的研究成果虽然很多,但是应用于图书信息推荐的较少,较为常见的算法主要有以下3种[10]。
1)内容推荐算法。
内容推荐算法是一种最为常用的图书信息个性化推荐方法,该算法基于用户历史搜索数据,将其搜索较多的一类图书分类后给予推荐,主要推荐的是用户偏好模型中的相似书籍,在评估过程中用户兴趣信息和图书信息呈现相似性关联关系。其流程如图1所示。
2)邻域推荐算法。
邻域推荐算法主要是将当前用户搜索过程中发现的与其搜索内容相似的邻近用户的搜索内容筛选出来进行匹配和评分,将得分最高的信息推荐给用户。该算法计算思路如下:首先输入k个邻近参数(用于指代图书信息关键词),然后将用户搜索数据拆分为训练集和测试集,在分拆过程中数据进行相似性排序形成新用户矩阵,当矩阵排列完成后对k个邻近用户分别进行相似度匹配,最终根据不同匹配分数获取推荐物品信息。
3)混合推荐算法。
由于不同的个性化信息推送算法各有优劣,因此在工业实践中往往将不同算法进行组合形成新的混合推荐算法,这类算法能够取长补短,提高数据推送的准确性。目前主流的混合推荐算法有整体融合、并行融合和线性融合3种,其中线性融合算法是较为流行的算法,该算法利用协同过滤技术将一定数量的信息进行排序和分类,然后将结果导入混合模型通过分析得出推荐内容。 |