该项目负责人是深圳大学管理学院的刘婷婷,项目成员是陈晓虹。本项目主要内容包括:1.以往研究多从合著网络出发改进随机游走算法,但文献证明异质信息的加入会增加随机游走算法的准确度,因此本项目将构建异构网络,研究不同网络之间的结合方法。2.经典的随机游走算法适用于单一网络,由于本项目建立的是异构网络,因此需要研究随机游走的改进算法,使其能够在异构网络中自动寻找最佳路径。3.不同的网络拥有不同的属性,所以构建异构网络后需要进行属性的融合。本项目将基于各网络特点,研究提出一套评估候选节点的新机制。4.本项目将提出新的推荐集合形成方法,以获得推荐机会的次数作为评估候选节点的方式,并对该方法做科学的解释。
本项目的创新之处主要体现在以下三个方面:1. 提出基于合作者网络和机构网
络的异构网络。现有关于合作者推荐方法的研究大多基于单个网络(合作者网络),用于分析合作者相似性的特征并不充分。2. 设计一组评估节点之间相似度的机制。基于合作者网络与机构网络的异构网络会产生四种强度不同的邻居关系,因此需要基于邻居关系定义一组评估节点之间相似度的机制,从而引导随机游走的过程,尊重目标用户过去的合作习惯和偏好。3. 提出改进游走框架的新型随机游走算法。已有的重启动随机游走算法(RWR)的游走概率是固定的,无法随着社交网络关系进行动态改变,而利用动态游走概率能更好地刻画节点之间的相似性传递,因此项目还将提出一种变静态游走为动态游走概率的随机游走算法。
本项目经结项验收,符合结项要求。其最终成果为:论文:
1. HNRWalker: Recommending Academic Collaborators with Dynamic Transition
Probabilities in Heterogeneous Networks.
2. 融合语义和社交特征的电子文献资源推荐方法研究。
融合语义和社交特征的电子文献资源推荐方法研究
1)
杨 辰 1,刘婷婷 1,刘 雷 1,牛 奔 1*,孙见山 2
(1. 深圳大学管理学院,深圳 5180601;2. 合肥工业大学管理学院,合肥
230009)
【摘要】随着知识爆炸时代的到来,电子文献数据库的负荷将急剧扩大,用户在库中搜寻所需资源也将愈发困难。因此,开发电子文献资源推荐系统从而辅助电子数据库的管理受到研究者的广泛重视。协同过滤作为时下数据库的常用推荐技术,由于仅仅考虑了用户对于文章的历史评分的相似度,忽略了用户在语义层面和社交关系的距离等重要因素因而推荐效果有限。为了在推荐系统中融入这些影响因素,本文在基于用户的协同过滤的方法基础上引入了基于主题模型的文本相似度和两种社会化的用户相似度(用户标签相似度与用户群组相似度),运用非监督的融合策略对这些相似度进行了整合。本文提出的融合文本特征与社会化指标的方法在真实数据集上展示了多源信息对于推荐准确度的增强和提升效应,对于电子文献资源的管理和传播具有较强的启示意义。
【关键词】文献资源;资源推荐;协同过滤;主题模型;社交网络
ANovel RecommendationApproach of Electronic Literature Resources Combining Semantic and Social Features
Yang Chen1, Liu Tingting1, Liu Lei1, Niu Ben1*, Sun Jianshan2
(1. College of Management, Shenzhen University, Shenzhen 518060; 2. College of
Management, Hefei University of Technology, Hefei 230009)
【Abstract】With the advent of knowledge explosion era, the load on the electronic literature databases will increase dramatically, and it becomes more and more difficult for users to search for the
基金项目:国家自然科学基金项目(71701134);教育部人文社科基金项目(16YJC630153); 广东省自然科学基金项目(2017A030310427)。
作者简介:杨辰,男,1989年生,博士,讲师,硕士生导师,主要研究领域:文本挖掘,推荐系统。通讯作者:牛奔,男,1980年生,教授,博士生导师,主要研究领域:智能管理,智能决策;Email: drniuben@gmail.com。刘婷婷,女,1994年生,硕士生,主要研究方向:社交网络分析。刘雷,女,1991年生,硕士生,主要研究方向:语义分析。孙见山,男,副教授,硕士生导师,主要研究领域:推荐系统。
required literatures. Therefore, the development of electronic literature recommendation system to assist the management of electronic databases has received extensive attention from researchers. Collaborative filtering is a commonly used recommendation technique for current literature databases. However, the traditional collaborative filtering algorithms, which only consider the similarity of users’ history scores, ignore some important factors, such as the users’ semantic similarity and social relationships. In this paper, we integrated the text similarity-based topic model and two kinds of socialized user similarities (user tag similarity and personal group similarity) into the user collaborative filtering recommender system by utilizing an unsupervised integration strategy. The experiment on the real data set shows that the multiple source features have an enhancement and promotion effect on the recommendation accuracy, which provides strong implications for related electronic literature resources recommendation research.
【Keywords】literature resources; resource recommendation; collaborative filtering; topic models; social networks
1 引言
互联网技术的普及和飞速发展推动互联网功能从Web1.0时代跨越到Web2.0时代。而Web2.0 时代的互联网用户在向互联网单纯“索取”的基础上又增加了“贡献”的角色。在这样的互联网背景下,数据量爆炸式增长而真实有用的信息被深深掩埋。文献资源作为时下电子资源的重要类型之一,同样面临着过载的压力。仅从学术论文的角度出发,根据爱思唯尔(Elsevier)SCOPUS 数据,2016年中国就发表了42.6万篇论文,发表总数量首超美国,成为全球第一。而出版社出版的电子图书、网络用户自发贡献的电子文献等更是多到难以统计。随着时间和资源的积累,电子文献数据库将变得越来越庞大,并给读者带来巨大的文献搜索负担。
现阶段解决信息过载的主要方式是搜索引擎与推荐系统。搜索引擎常用的搜索策略是基于关
键词的信息检索,这可以在一定程度上解决信息超载的问题,但该方法常常忽略词语的语义层面,可能会导致较低的搜索结果准确度以及较大的关键词挑选困难性,尚无法满足用户的多元化和个性化需求[1]。除了传统的信息检索外,能自动给用户进行资源推送的个性化推荐系统也是一个非常有潜力的提高信息使用效率的方法。其根据用户的偏好和需求,将用户感兴趣的产品或者信息推荐给用户,比如电影、书籍和新闻等。一个高效和准确的电子文献推荐系统会主动向用户推荐适合他们的内容,不仅可以大量节省用户查找的时间,还能在系统与用户之间建立密切联系,让用户对推荐产生依赖,从而形成良性循环。
目前常用的电子文献推荐算法可分为基于图(网络拓扑图)的推荐、基于内容的推荐
(Content-based,CB)和协同过滤推荐(Collaborative filtering,CF)。作为一种传统的推
荐技术,CF的基本思想是先找出与用户兴趣相近的“邻居”,然后利用这些邻居的偏好信息进行互补推荐。相比于CB,CF只需利用过去的评分信息,而不需要对项目有详细的描述。CF方法在学术界备受关注的原因,是因为它允许用户从其他人的经验中获取优势[2]。然而,传统的协同过滤方法所依托的仅仅是用户物品(UI)矩阵的信息,未考虑对影响推荐结果的其他重要因素,因此可以提出混合型方法从多个方面进行缺点弥补。基于此观点,本文在协同过滤技术较为成熟的矩阵相似度计算中引入三种多源推荐背景信息,从而对传统的协同过滤方法的给予补充和增强效应。这三种信息分别为:(1)基于主题模型的文本相似度;(2)文章阅读社区中的用户相似度;(3)基于文章评价短标签(tag)的用户相似度。综上所述,为了帮助用户更好地找到电子资源数据库中的所需资源,本文在传统的协同过滤推荐框架下,通过非监督的Comb融合策略对三种不同维度的特征进行相似度的融合操作,然后利用多源信息混合的用户相似度计算最近邻,提出了一种新型的电子文献资源推荐方法。该方法对于电子文献资源的推荐具有较强的理论意义,对高校数字化图书馆建设和电子商务平台文献推荐服务有重要的实践意义。本文第四章所阐述的基于在线文章阅读平台CiteULike的数据实验结果也验证了这种新型的推荐方法的准确性和可靠性。
本文组织结构如下:第二章给出相关背景和文献回顾;第三章提出基于协同过滤的电子文献资源推荐方法;第四章介绍实验结果和分析;第五章总结全文。
2 相关背景和文献回顾
2.1电子文献资源推荐的应用现状和趋势
在全民阅读的时代背景下,电子资源的重要性不言而喻。根据国际图书馆协会联合会 (International Federation of Library Associations and Institutions, IFLA) 2012年发布的《电子资源馆藏发展的关键问题:图书馆指南》[3],可将电子资源定义为需使用计算机访问的资料。而本文的研究对象是指其中的文献资源,例如学术论文、图书、报纸等,不包括电子视频、图片和音像等。
从文献的角度看,电子文献资源推荐应用最广泛的是学术论文推荐和图书推荐。首个论文推荐系统由Giles等人于1998年推出[4],随后越来越多的论文推荐系统被成功开发。例如国内的百度学术,国外的谷歌学术等。其中,百度学术的电子文献资源推荐服务具体体现在论文页面的 “相似文献”一栏。这些文献是基于推荐技术主动推送给用户的电子资源。而图书推荐系统则由于当下人们在线阅读的习惯已逐步养成,因而大量应用在一些在线阅读平台(阿里巴巴的书旗、京东的校园阅读等)。伴随数字化文献资源的激增,电子文献资源推荐技术的应用将越来越受到重视,并成为电子文献系统不可缺少的重要功能。
从服务的提供方来看,电子文献资源推荐技术被广泛应用于高校的数字化图书馆和电子商务平台。随着我国信息处理、存储与管理技术的高速发展,越来越多的高校对图书馆的文献资源实施数字化管理,逐步实现从传统的图书馆向以检索为主的自动化图书馆再到现在以用户需求为导向的数字化图书馆的转变[5]。数字化图书馆正成为当下公共图书馆的主流形式,为读者提供越来越智能化和个性化的文献服务[6]。而对提供电子文献资源的电子商务平台来说,为顺应用户的阅读习惯,提高用户对平台服务的满意度,则不得不着力开发电子文献资源的推荐技术以满足用户多样化和个性化需求。亚马逊公司正是运用基于协同过滤的智能算法将电子文献资源推荐给读者,从而为具有不同背景、不同兴趣偏好的读者自动推荐满足其需求的内容,既吸引了大批量的读者客户,又大幅增加了其业务利润[7]。除此之外,一些在线阅读平台如新浪阅读、百度阅读、腾讯阅读和起点中文网等平台,主要采用的是基于关联模型和基于热度的排行榜推荐[8]。推荐的流程大多先获取用户的一些个性化数据,然后根据群体特性进行推荐,尚无法真正实现个性化的智能推荐。无论是从文献类型来看还是从服务的提供方来看,随着全球信息化技术的不断发展、用户阅读意愿的显著提高以及电子文献资源的数量激增,都将促使电子文献的推荐技术不断向前发展,并逐渐被普遍应用。
2.2构建电子文献资源推荐服务的必要性
根据中国新闻出版研究院发布的《2017~2018中国数字出版产业年度报告》显示,2017年,互联网期刊、电子图书、数字报纸的总收入高达82.7亿元,与2016年相比增长5.35%。其次,第四届(2018)中国数字阅读大会发布《2017年度中国数字阅读白皮书》统计宣布我国2017年数字阅读用户已近4亿。这意味着我国电子文献在线阅读的需求极大。与此同时,知识爆炸时代中电子文献的大量增加,导致电子资源数据库又正面临“量”的压力。因此,随着用户在线阅读习惯的逐步养成,电子文献资源高效管理的重要性愈发显著。
实际上,高效的资源管理绝不仅是对电子文献资源进行合理采集、处理、存储与整合,还应提供友好的资源呈现方式,从而及时准确地满足用户在线获取电子资源的需求[9]。然而,仅依靠用户检索的方式呈现资源是远远不够的。因为高新技术的发展、用户在线阅读需求的增加以及时间的日积月累,会导致电子文献系统承载的文献数据将越来越繁杂,用户文献的检索难度会越来越大。
因此,无论是对高校数字图书馆建设和管理还是电子阅读商务平台的运营和销售,都需要利用电子文献资源推荐服务辅助文献的检索服务。一方面该服务可以揭示平台内的文献资源,提高文献资源的最大利用率,另一方面最大化地满足用户文献检索的准确度与时效性需求[5]。
2.3电子文献资源推荐的方法综述
电子文献资源推荐技术是指网络平台根据用户的历史行为数据或个人数据自动在平台内搜索对应资源并主动向用户呈现的实用技术[10]。它不仅能帮助读者快速地在图书馆中找到所需的电子图书,也能帮助科研人员在容纳海量论文数据的科研学术平台中挖掘所需论文。当下,随着电子文献的激增和用户电子阅读习惯的养成,电子文献资源的推荐已经成为学者们重点关注的一个科研方向。目前,主流的电子文献资源的推荐方法分为三种[11]:(1)基于图(网络拓扑图)的方法[12-13];(2)基于内容的算法[14-16];(3)协同过滤方法[19-21];
基于图的方法不考虑用户和推荐对象的内容特征,而是首先构建拓扑图,即物品或用户的内在联系所形成的图网络。在图中,用户和推荐对象都被抽象化成网络中的节点,通过节点之间的相似度来实现推荐。常用的电子文献资源拓扑图例如基于引用关系的拓扑图,基于作者合著关系的拓扑图以及基于读者阅读关系的拓扑图等。已有研究例如Chakraborty等[12]在引用网络中使用随机游走框架进行科技论文推荐。Pan等[13]381-392基于引用网络和内容网络构建异构网络,然后应用基于图的相似性学习算法实现论文推荐。该类方法的特点是计算较其他算法简便,但缺陷是准确率往往无法达到实际应用水平。
基于内容的推荐技术在整个推荐领域中已较成熟。这一类算法大多从推荐对象的本身提取内容上的特征构建推荐模型。例如Wang等[14]在基于内容的推荐算法框架下,结合学术资源的权威性、流行度和时效性等特性为用户推荐学术资源。陆璐[15]针对电子文本的高维度和难处理特点,采用拆分法变长文本为多个短文本,利用多维潜在语义算法模型,构造语义关系图矩阵来表征语义相关性最终实现电子书推荐。为了帮助文献管理平台识别用户的潜在研究兴趣,曾子明等[16] 先基于内容的个性化过滤方法辨别用户的研究兴趣偏好,再利用社会网络分析法搜寻数据库中对应的高影响力论文,从而实现个性化的文章推荐。
协同过滤推荐算法是实际互联网平台(社交平台、电商平台等)中应用最普遍、最成功的推荐算法[17]。其基本理论是用户会喜欢具有相似或相同兴趣的用户喜欢的东西。由于只利用过去的评分信息,平台的适应性相对更强,因此与基于内容的方法相比,协同过滤方法在学术界更受关注[18]。
电子文献资源推荐的协同过滤算法研究也较多。例如,对于图书馆学术资源信息过载问题,李默等[19]提出在协同过滤推荐的框架下融合信任度和用户特征的学术资源推荐方法。曹斌等[20] 利用用户的阅读时长来衡量用户的阅读速度,提出结合阅读速度感知模型和书籍阅读权重模型的混合的速度-权重模型,从而基于用户的潜在反馈来填补评分矩阵,进行基于协同过滤的电子图书推荐。除此之外,王燕等[21]基于时间序列抽取用户访问URL的信息填补转移矩阵,然后基于余弦因子法找到N个目标对象的最近的邻居,最后根据协同过滤推荐方法实现学术资源的动态推荐。
在电子文献资源推荐领域,尽管协同过滤推荐算法更受学者关注,但实际使用得却比基于内容的方法少,原因是电子文献资源用户的行为数据远少于电子文献资源本身的特征数据,所以单纯的协同过滤推荐算法推荐的动力不足,容易由于数据稀疏和特征不足导致准确率低[22]。为了解决这个问题,本文在协同过滤算法的框架下,采用作者主题模型模拟用户的专业知识,利用用户在文章阅读社区中的群组关系构建基于社区的用户相似度,然后利用J-S相似度进行基于用户的相似度匹配,最终实现更准确的协同过滤推荐。
3 协同过滤框架下多源信息融合的电子文献资源推荐系统
协同过滤方法是一种传统的推荐技术,该方法认为用户会喜欢与其相似的用户喜欢的产品或服务。但传统协同过滤算法仅仅考虑了用户历史评分矩阵中所反映的偏好信息,忽视了用户过去的阅读兴趣偏好以及文章之间的主题相似度。而基于内容的推荐虽会考虑阅读的文章所表达的读者阅读兴趣,但以往的研究多是使用基于关键词的信息检索方法来控制,对于文本内容的处理不够精细。
综上所述问题,本文在协同过滤的用户相似度计算框架基础上,采用对于文档主题抽取有较好效果的作者主题模型来进行文章的内容表征,并且基于主题模型根据不同文档的主题分布情况来计算文档间的相似度。除了内容相似度外,本文也引入了文章阅读社区中的用户相似度与基于文章评价短标签的用户相似度两种用户社交特征。最后,多源信息(基于主题模型的文本相似度、文章阅读社区中的用户相似度和基于文章评价短标签的用户相似度)将通过Comb方法融合在传统的协同过滤推荐框架上。研究框架如图1所示,具体的推荐过程是多源信息首先与协同过滤算法计算的用户相似度进行了融合,然后利用综合后的用户相似度进行评分计算,最后生成推荐列表。下面将首先介绍本文所使用的基于用户相似度的协同过滤框架,并分别介绍三种相似度及其融合的具体计算过程。
图1 多源信息融合的电子文献资源推荐框架
3.1基于用户相似度的协同过滤技术
一般来说,基于用户相似度的协同过滤包含三个主要阶段:
邻居形成阶段:找到和目标用户具有相似偏好的“邻居”群体。这里的邻居代表着从历史评分数据中挖掘出的一组志同道合的用户,他们和目标用户可能并不认识,但是对于目标事物的认识和偏好却很相似。
邻居选择阶段:计算出候选的邻居集合后,下一步就是选出k个最近邻,来表征目标用户需要参考的对象。因为在全量用户集合上进行相似度的计算过于冗余,而且很多距离较远的用户参考价值也不够大,因此通常用k个最近邻来代表邻居群体。
评分综合阶段:该阶段是根据第二步选择的k个邻居所评价过的项目评分(该目标用户尚未评价过),进行相似度综合,从而预测出目标用户对于这些项目的评分。
由于本文在计算用户相似度时考虑到了用户历史阅读文章的语义相似度,因此作者选择了基于用户的协同过滤方法。基于用户的协同过滤方法首先对于一个给定的用户找到最相似的邻居集合,然后综合这些邻居的偏好进行推荐。常用的基于偏好矩阵的用户相似度指标Pearson相似度如公式(1)所示:
simu,v pP rui2 -ru rvi -rv 2 (1)
pP rui -ru * pPrvi -rv
其中rui代表用户u对于物品i的评分,ru代表用户u的历史评分均值,P是用户u和用户v 的有共同评分的物品集合。用户的评分减去其均值为去中心化操作,是为了去除掉用户的评分尺度的影响。
基于用户的推荐框架会综合邻居的相似度,该模型的定义如下:
predu,i ru vNsim(u,v)(rvi rv ) (2) sim(u,v) vN
其中, pred u,i是指用户u对于未评分的物品i的预测评分,N是给定用户u的最近邻集合。
3.2基于主题模型的文本相似度
传统的基于内容的文章推荐研究中[16-18],常见的内容相似度计算方法有基于TF-IDF方法的余弦相似度等。这种方法对于语义的使用仅仅体现在关键词层面,无法捕捉到文档的语义特征,从而容易出现失配的问题。而作者主题模型经常被应用于信息检索和知识发现领域[23],它可以解决一词多义和同义关键词匹配的相关问题。因此本文拟使用作者主题模型来进行用户阅读文本的语义相似度计算。
作者主题模型[24]从LDA模型[25,26]发展而来。它的提出拓展了作者、关键词和潜在主题之间的关系。在该模型中,每一个文档都被表征为一组关键词数的向量。在每一个主题上的词被假定服从参数为ϕ的多项式分布,每一个作者的潜在主题被假定服从参数为θ的多项式分布。假定有一组集合:D个文本,T个主题和K个作者。作者主题模型的概率图可以用图1表示,其中阴影部分代表给定样本的观察值。w是文本的词汇集,ad是文本的作者集合。α和β分别是θ和ϕ 的狄利克雷先验分布的参数。x和z 分别代表作者变量和主题变量。对于给定的文本,作者、主题和词分别根据ad、Dir(α)和Dir(β)的随机分布进行抽样。最后,主题模型的参数可以根据抽样的数据进行估计。图2中的箭头表示变量间存在条件依赖[24-27]。
图2 作者主题模型的概率图模型[24]
利用作者主题模型来计算读者们历史阅读文献的文本相似度的语义相似度方法相对于信息检索领域的多数相似度计算方法来说,解决了传统信息匹配中可能会出现的关键词失配问题,对电子文献资源推荐具有很好的提升效果。
在这项研究中,我们调整作者主题模型以更好模拟研究人员的专业知识。我们提出的这个推荐系统的优点之一是作者主题模型能够在线上环境进行动态更新,因而能够捕捉最新的研究人员的专业知识。为了实现对于文章主题的高层次的匹配精度,需对用户的历史阅读文章档案进行语义分析。
模型建立与参数估计
基于作者主题模型的假设,需要对两个未知参数进行估计:θ(每个作者的主题分布)和ϕ (每个主题上的词分布)。正如Rosen-Zvi等[24]提出的方法,我们采用马尔可夫链蒙特卡罗算法和吉布斯采样从后验分布进行参数估计。
文本匹配度计算
在对作者主题模型进行学习后,研究人员的专业知识可以表示为一系列主题的分布。
Rosen-Zvi等[24]曾经采用对称的Kullback-Leibler散度(SKL)来测量两个专家之间的专业知识相似度。而Weng等[28]在其文章中采用的是Jensen-Shannon散度(JS)来度量概率分布之间的距离。同SKL相比,JS引入了平均值的思想,且在数值上也更为稳定[29]。因此,本文采用
JS散度进行相关匹配,具体计算方式如下:
v
DKL (Rj P Rk )=Rj (i)ln vj i Rk (i) |
(3) |
v v v v v R (i) v DSKL (Rj P Rk )=i Rj (i)ln Rvkj (i) Rk (i)ln RRvkj ((ii)) |
(4) |
M = (Rj +Rk ) 2 |
(5) |
v v 1 v v v v ToSu ,u =DJS (R j P Rk )= (DKL (R j P M )+DKL (Rk P M )) |
(6) |
3.3文章阅读社区中的用户相似度
利用用户在文章阅读社区中建立的群组关系,可以构建基于社区的用户相似度。首先,同一个社区群组的用户对于文章的基本偏好较一致。此外,群组里的用户会被群组里进行的相关社交活动所影响,例如群组会对某一篇文章进行探讨或者对于某个主题进行分享与讨论,长此以往群组里的用户也会产生相同的偏好与观点。因此,本文将基于用户兴趣群组计算得到的相似度也纳入了推荐系统的框架。具体来说,群组的相似度可以用Jaccard方法进行计算,如公式(7)所示。
Nuj ,group INuk ,group
GSuj ,uk = (7)
Nuj ,group UNuk ,group
在公式(7)中,Nuj,group表示的是用户j在网上阅读社区所加入的群组集合,分式的上方表
示的用户j和用户k的群组集合的交集,分式的下方表示的是两个集合的并集。由于群组社交相似度的概念较为直观,因此本文采用的方法与他类似方法的效果无明显差距。
3.4基于文章评价短标签的用户相似度
在线的用户对阅读过的文章进行评价的时候,往往会采用短标签(tag)的方式,比如使用“写得精彩”、“推荐系统论文”、“创新性强”、“文本挖掘”等短语来表达文章的基本内容或者其对于文章的看法。这些标签的分类对于阅读者的兴趣偏好也有一定的反映。兴趣偏好相似的用户对于同一篇文章所打的标签通常较为一致,而且其给出的标签(尤其是名词短语)基本也能反映出作者的即时兴趣,或者说对于这篇文章的关注点。以本文为例,关注技术的读者会采用“协同过滤”的标签,而对于资源推荐感兴趣的用户则会采用“资源推荐”的标签。Jiang等[30]就采用从CiteULike数据集中提取的用户标签信息,并在LDA的基础上利用这些社会标签资源来计算摘要间的问题相似度和方法相似度。
由于标签信息比较简单和固定化,因此在实际处理中不需要进行长文本的语义分析。在进行了切分词处理和合并操作后,可以直接使用标签本身的共现关系进行处理。这些短标签的共现情况与用户的相似度是正相关关系。具体而言,短标签的处理也采用了类似于Jaccard方法的策略来基于用户的tag信息得到用户相似度的推荐方法,具体公式如下:
Nuj ,tag INuk ,tag (8)
TaSuj ,uk =
Nuj ,tag UNuk ,tag
其中,Nuj,tag表示用户j过去阅读文章所给出的标签集合。
3.5用户相似度融合和推荐
在获取了三种不同维度的特征表征方法以后,下一步就是与传统的基于协同过滤的用户相似度进行融合。本文采用的是非监督的Comb-MNZ方法进行相似度的融合操作。为了保证数据融合的可靠性,在融合前先利用最小-最大标准化法进行相似度分值的标准化。
融合过程如公式(9)所示。式中wn代表每个列表的权重,估计方法为贪心策略。此外,f=4,
分别表示基于协同过滤的用户相似度(simuj,uk)、文本相似度(ToSuj,uk)、文章阅读社区中的相似度(GSuj,uk)和基于文章评价短标签的用户相似度(TaSuj,uk)。R 表示4个列表的候选邻居用户集合,h(i,R)表示候选用户i在R中出现的次数。
f
Scorefused_Comb_MNZ = h(i,R)* wn *Simnorm (i,rn ) (9) n=1
综上所述,本文考虑了三种新型的电子文献资源推荐中的特征,并考虑将其融合到传统的协同过滤的推荐框架中去,具有较强的理论和实践意义。根据作者的综述情况,本文是首次提出将三种新颖的推荐特征在文章推荐的过程中进行综合考虑的文章,而本文第四节中基于真实阅读平台的数据实验结果也验证了这种新型的推荐方法的准确性和可靠性。
4 实验和结果讨论
(1)数据集
本研究使用的是基于CiteULike网站上的用户阅读数据集。CiteULike是一种强大的管理和共享参考文献的社会标签系统工具。除了能给相关文章添加书签,CiteULike还提供社交化的功能,用户可以创建或者加入具有特定研究主题的研究小组。
在对原始数据集合进行预处理后,我们删除重复和空白文献,并去掉个人文献库里少于10 篇文章的用户。最后获得的数据集里共有8479名用户,90233篇文章和243516个观察到的用户文章对。对于每一篇文章,我们删除了停用词。同时,为了增强对于核心词的筛选,我们使用TF-IDF 方法筛选出了前15000个不同的单词作为词汇,产生了一个1.1M 的语料库。最后,我们按照1:3 的比例对实验数据集合进行随机切分,其中25%作为测试集,75%为训练集。对比实验采用5折交叉法,取5次实验的指标均值作为比较结果。
(2)评价指标
本文采用了五种常见的物品推荐系统的评价指标,分别是prcision准确率、recall召回率、
F-measure、MRR (Mean Reciprocal Rank) 和MAP (Mean Average Precision)。这五种指标数值越大,则推荐效果越好。相关计算公式可以在文献[31]和[32]找到,这里不再赘述。
(3)实验结果分析
本研究将基于用户的协同过滤方法(下文简称为CF方法)、基于内容相似度的推荐方法(以下简称CB方法)以及本文所提出的新方法(以下简称PM方法)在CiteULike数据集上进行了对比实验,其中准确率、召回率、F-measure、MRR和MAP指标上的对比结果如图3-5所示。
图3 准确率和召回率的对比结果
图4 F-measure对比结果
图5 MAP和MRR对比结果
图3和图4可看出,在前3、6、9、12、15的推荐列表长度上,准确率、召回率和F-measure 指标都在本文提出的PM方法上取得了最佳效果,对比的CF方法效果也比较好,而CB方法效果最差。同时,从图5的MAP和MRR两个排序指标结果也可以看出,本文提出的新方法取得了最好的效果。以上结果充分证明了本文提出策略的有效性,方法的设计思路与实际数据相吻合。
5 结语
电子资源个性化推荐系统是现阶段缓解信息过载压力,提高信息使用效率的有效方法。因此,构建高效的电子文献资源推荐系统对高校数字化图书馆和在线阅读平台满足用户多元化和个性化阅读需求具有重要意义。然而,尽管协同过滤推荐方法对平台和资源的适应性较强,但由于使用的特征还存在较大局限性因而在电子资源推荐领域还有很大的改进空间。本文为了弥补协同过滤方法在用户相似度的计算过程中对于文章语义和用户社交关系分析的不足,通过在传统的协同过滤推荐的用户相似度矩阵中引入三种不同维度的特征,从而修正了相似度的计算过程。同时,本文将提出的PM方法和两种对比方法(基于用户的协同过滤CF方法和基于内容相似度的CB推荐方法)在真实数据集中进行了一系列的实验,实验结果表明该方法具有较好的适应性和较好的推荐效果。本文提出的电子文献资源个性化推荐方法对数字图书馆领域的信息传播与知识扩散具有正面的引导意义,可以有效帮助研究者和业界人士寻找到感兴趣的文献资源。在未来的研究中,作者将尝试把多维特征移植到网络图中进行计算,利用网络图中的路径和邻居关系挖掘潜在的用户关系,进一步改进推荐方法,从而构建更智能化和个性化的电子文献资源推荐系统。
【参考文献】
毕强, 刘健. 基于领域本体的数字文献资源聚合及服务推荐方法研究[J]. 情报学报, 2017, 36(05):24-32.
Adomavicius G, Tuzhilin A. Toward the next generation of recommender systems: a survey of the state-of-the-art and possible extensions[J]. IEEE Transactions on Knowledge and Data Engineering, 2005,17(6): 734-749.
赵艳, 肖曼, 鞠文红,等. 电子资源馆藏建设的关键问题:图书馆指南[J]. 图书情报工作动态,2012(4):1-4.
Bollacker K D, Lawrence S, Giles C L. CiteSeer: an autonomous web agent for automatic retrieval and identification of interesting publications[C]// International Conference onAutonomousAgents, 1998, pp. 116–123.
黄义文. 大数据环境下图书馆学术资源个性化推荐服务研究[J]. 图书馆学刊, 2016(7):78-80.
查先进, 李力, 严亚兰,等. 数字图书馆环境下信息有用性和信息获取影响因素研究——信息获取自我效能的
调节效果[J]. 情报学报, 2017, 36(7):669-681.
陈玉, 尹桂平. 移动阅读信息资源推荐与利用策略[J]. 图书馆学研究, 2017(1):69-72.
方磊. 基于移动互联网阅读平台的智能推荐体系应用研究[D]. 南京:南京邮电大学,2016.
陈俊鹏, 虞为. 基于实时新闻分析的馆藏资源推荐方法研究[J]. 中国图书馆学报, 2015,41(6):86-96.
[10]李树青, 徐侠, 许敏佳. 基于读者借阅二分网络的图书可推荐质量测度方法及个性化图书推荐服务[J]. 中
国图书馆学报, 2013, 39(3):83-95.
Beel J, Gipp B, Langer S, Breitinger C. Research-paper recommender systems: a literature survey[J]. International Journal on Digital Libraries, 2016,17(4): 305-338.
Chakraborty T, Krishna A, Singh M, et al. FeRoSA: a faceted recommendation system for scientific articles[C]// Pacific-Asia Conference on Knowledge Discovery & Data Mining, 2016, pp. 528–541.
Pan L, Dai X, Huang S, et al. Academic paper recommendation based on heterogeneous graph[M]// Chinese Computational Linguistics and Natural Language Processing Based on Naturally Annotated Big Data, 2015, pp. 381–392.
Liu X, Wang Z, Ye F. A recommendation system algorithm based on large scale internet environment[C]// Web Information Systems & Applications Conference, 2017, p. 112.
[15]陆璐. 基于内容的电子书和作者推荐方法研究[D]. 哈尔滨:哈尔滨工业大学, 2016.
[16]曾子明, 周红. 科技文献中基于主题的社会化推荐研究[J]. 情报理论与实践, 2015, 38(3):71-76.
[17] Wang Z, Liu Y, Yang J, et al. A personalization-oriented academic literature recommendation method[J]. Data Science Journal, 2015, 14:1-9.
[18]孙梦婷, 袁小群. 我国学术数据库协同过滤资源推荐研究现状探讨[J]. 出版科学, 2017, 25(4):11-15.
[19]李默, 梁永全, 赵建立. 融合相似性评价、信任度与社会网络的学术资源推荐方法研究[J]. 情报理论与实践,
2015, 38(5):77-81.
[20]曹斌, 彭宏杰, 侯晨煜, 等. 基于用户隐性反馈与协同过滤相结合的电子书籍推荐服务[J]. 小型微型计算
机系统, 2017, 38(2):334-339.
[21]王燕, 欧莹元, 张继燕. 马尔科夫协同过滤模型在用户动态行为分析中的应用[J]. 无线互联科技,
2015(4):144-146.
[22]刘智超. 基于混合模型的学术论文推荐方法研究[D]. 北京:北京邮电大学, 2015.
[23]徐戈, 王厚峰. 自然语言处理中主题模型的发展[J]. 计算机学报, 2011,34(8): 1423-1436.
Rosen-Zvi M, Griffiths T, Steyvers M, Smyth P. The author-topic model for authors and documents[C]. 20th conference on Uncertainty in artificial intelligence, 2004, pp. 487–494.
Blei D, NgA, Jordan M. Latent Dirichlet allocation[J]. The Journal of Machine Learning Research, 2003, 3: 993-1022.
[26]蔡永明,长青.共词网络LDA模型的中文短文本主题分析[J].情报学报,2018,37(03):305-317.
Rosen-Zvi M, Chemudugunta C, Griffiths T, Smyth P, Steyvers M. Learning author-topic models from text corpora[J]. ACM Transactions on Information Systems (TOIS), 2010,28(1): 4.
Weng, Jianshu, et al. TwitterRank: finding topic-sensitive influential twitterers[C]. 3th ACM International Conference on Web Search and Data Mining, 2010, pp. 261–270.
Huang, Xiangsheng, et al. Jensen-shannon boosting learning for object recognition[C]. 2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR’05), vol. 2, 2005, pp. 144–149.
Jiang Y, Jia A, Feng Y, et al. Recommending academic papers via users’ reading purposes[C]. the Sixth ACM Conference on Recommender Systems, 2012, pp. 241–244.
[31]朱郁筱, 吕琳媛. 推荐系统评价指标综述[J]. 电子科技大学学报, 2012, 41(2):163-175.
[32]韩朝, 苗夺谦, 任福继, 等. 基于粗糙集知识发现的开放领域中文问答检索[J]. 计算机研究与发展, 2018,
55(5):958-967.
HNRWalker: RecommendingAcademic Collaborators with DynamicTransition Probabilities in Heterogeneous Networks
ChenYang1, Tingting Liu1, Xiaohong Chen1,Yiyang Bian2,*,Yuewen Liu3
College of Management, Shenzhen University, Shenzhen, Guangdong, PR China
School of Information Management, Nanjing University, Nanjing, Jiangsu, PR China
School of Management, Xi’an Jiaotong University, Xi’an, Shaanxi, PR China
*Address for correspondence:
E-mail: bianyiyang@nju.edu.cn
Phone: 86-13652351061
FAX:86-075526534451
School of Information Management, Nanjing University
No. 163 Xianlin Rd, Qixia District, Nanjing, Jiangsu, PR China
【Abstract】Multi-source information not only helps to solve the problem of sparse data but also improves recommendation performance in terms of personalization and accuracy. However, how to utilize it for facilitating academic collaboration effectively has been little studied in previous studies. Traditional mechanisms such as random walk algorithms are often assumed to be static which ignores crucial features of the linkages among various nodes in multi-source information networks. Therefore, this paper builds a heterogeneous network constructed by institution network and co-author network and proposes a novel random walk model for academic collaborator recommendation. Specifically, four neighbor relationships and the corresponding similarity assessment measures are identified according to the characteristics of different relationships in the heterogeneous network. Further, an improved random walk algorithm known as “Heterogeneous Network-based Random Walk” (HNRWalker) with dynamic transition probability and a new rule for selecting candidates are proposed. According to our validation results, the proposed method performs better than the benchmarks in improving recommendation performances.
【Keywords 】 Collaborator recommendation services; Heterogeneous networks; Random walk algorithms; Link prediction; Academic social platforms