黑龙江东方学院 黑龙江哈尔滨 150066
摘 要:微博话题对微博舆情有重要影响,有效识别促使微博话题形成的高质量关键用户是微博舆情挖掘的关键环节。本文根据话题特征选取话题关联的微博消息集合,首先基于话题用户关系图和边权重挑选候选关键用户集合,然后结合用户的信任度对候选关键用户进行排序挖掘高质量关键用户。通过新浪微博话题数据集上的实验表明本文的方法能够挖掘早期促使微博话题形成的高质量关键用户。
关键词:用户图模型;信任模型;微博话题;关键用户挖掘
1 引言
伴随着移动互联网技术的飞速发展和智能终端的不断普及,信息传播进入了全新的自媒体时代。微博则是Web 2.0时代自媒体的代表,平民化、个性化、及时性、交互性成为其显著特征,使其成为各类机构、人群获取信息、传播新闻、发表意见、制造舆论的重要平台。微博话题的出现加速了各群体成员之间的相互影响,助推个人情绪成为社会情绪,有时直接推动社会安全事件的进展。微博平台是社会公共突发事件的第一大信息源,包括“东航坠机事故”、“唐山打人”以及“售假门”等微博话题。上述一系列微博话题将微博平台推向风头浪尖的同时,也使网络舆情最具代表性的新视域——微博话题受到学界和业界越来越多的共同关注。
微博较低的准入门槛、把关责任的缺失和匿名登录等特性使微博在传播正能量舆情的同时也加快了对负能量舆情的扩散,且碎片化的虚假、负面舆情借助微博更是甚嚣尘上,给社会造成恶劣影响。由于微博中存在大量的碎片化文本信息,目前采取的系统审核或人工实时监控,并不能很好地限制虚假信息的传播。因此微博除了成为民众表达关切和诉求的窗口之外,也成为了虚假信息、流言蛮语滋生的平台。微博中的关键用户发布、转发感兴趣的微博消息是微博中话题形成的主要原因。因此,有效识别微博话题形成过程中的高质量关键用户是微博舆情监控的重要环节。
研究微博话题高质量关键用户挖掘问题的主要研究对象包括话题关联的用户以及消息,从研究对象的角度进行分析,研究微博话题高质量关键用户挖掘问题的挑战至少包括以下两点:
(1)消息传播速度的即时性。消息的传播速度与方式和参与消息传播的用户类型密切相关,话题消息扩散过程中参与用户的类型以及用户影响力是衡量话题的传播速度以及规模的一个重要指标,消息的快速传播对于挖掘引爆微博话题的关键用户带来了困难。
(2)用户质量的多样性。微博中存在大量的低质量用户(僵尸粉丝、水军),这类用户通过刷量转发以及评论的方式推广话题的传播,这类由低质量用户参与微博话题给挖掘微博话题高质量关键用户带来了巨大挑战。
面对这些挑战,本文给出了解决思路,具体如下:
(1)针对话题消息传播扩散速度快的特点以及挖掘早期促使微博话题形成的关键用户需求提出了用户图模型,该模型将时间属性融合到用户图模型中,筛选出候选关键用户集合,挖掘早期促使微博话题形成的关键用户。
(2)针对微博用户质量的多样性特点以及准确的发现话题的高质量关键用户的需求提出了信任模型,通过评价候选关键用户的交互质量从而挖掘话题高质量关键用户。
2 基于用户关系图模型和信任模型的微博话题关键用户挖掘方法
本节将从基于用户图模型的候选关键用户选取和基于信任模型的关键用户挖掘两个阶段对本文提出的关键用户挖掘方法进行描述。
2.1 基于用户图模型的候选关键用户选取
基于用户图模型的微博话题候选关键用户选取主要分为三个步骤:根据微博话题关联的实体及用户行为建立微博话题用户图模型、融合时间属性的用户关系权重计算方法以及面向微博话题的候选关键用户选取。
2.1.1 微博话题用户图模型
特定微博话题可以利用微博话题的特征词形式化描述为
,其中
为微博话题
的一个特征词。假设微博话题
的用户关系图可以形式化表示为
,其中
为微博话题
的用户集合,该用户集合内的每个用户需要满足的条件为用户至少发布了包含微博话题
的一个特征词。
表示边集合,对于任意的
,
表示用户
与用户
之间的转发关系。
2.1.2 融合时间属性的用户关系权重计算方法
为了挖掘早期促使微博话题形成的关键用户,本文将时间属性融合到用户关系图模型的用户关系权重计算中。对于用户,令
为用户
发布包含微博话题特征
的消息时间(如果用户
未发布包含特征
的消息,则
=0)。令
为用户—话题特征向量,该向量的每个分量
表示用户
是否发布描述微博话题
的特征
的权重,其计算公式如下:
令为用户关系向量,该向量的每个分量
表示用户
与用户
针对微博话题
的特征
的边权重,其计算公式如下:
其中,对于,
为控制时间窗口并调节计算
的因子(
)。
2.1.3 面向微博话题的关键用户挖掘算法
假设微博话题的用户关系图为
,对于任意的
,令
表示用户
对用户
的影响力,其计算公式如下:
其中表示向量
中元素不为0的元素的个数,
表示微博话题
的话题特征词个数。特别地,当
为0时,定义
为0。
将规范化公式如下:
令表示微博话题
中用户的关键用户权重,
微博话题中用户
的关键用户权重
计算公式如下:
其中为调节因子,
表示用户在用户关系图上的概率分布,假设各个微博话题是相互独立的,对于任意的
,
的计算公式如下:
将集合
中的用户按照关键用户权值
降序排列,排序前Top N的用户形成促使微博话题
传播与扩散的关键用户集合
。
2.2 基于信任模型的关键用户挖掘
本文的用户信任模型从两个方面考虑:微博用户的全局信任、微博用户间信任。
对于微博用户的全局信任通过微博用户在微博网络中发布消息的影响力进行全局度量,微博用户的全局信任计算公式如下:
其中表示微博用户
的微博全局信任度,
表示第m条微博消息的评论数、回复数、转发数的总和,M(t)表示t时间段内发布的微博消息集合,
表示t时间段内发布消息的总数。
微博用户间的信任主要考虑微博用户间的历史交互数据,其计算公式如下:
其中表示微博话题
的用户集合中的用户j对微博用户i发布微博消息的评论及回复数,
表示微博用户i的微博消息评论和回复总数。
在上述两方面的度量基础上,将微博用户的混合信任值计算如下:
其中。
将关键用户集合按照微博用户混合信任值排序即为促使微博话题
传播与扩散的高质量关键用户集合。
3 实验设计及结果分析
实验环境:操作系统为Redhat 6.5,数据库采用ElasticSearch及Mysql数据库。算法实现采用Python语言。
3.1 数据获取与预处理
3.1.1 数据获取
实验过程中通过微博话题标签人工标注新浪微博中的微博话题,并利用爬虫程序根据话题词特征抽取相应话题消息以及消息对应的用户信息。爬虫程序根据志愿者提供的话题特征(关键词、标签信息)以及话题生存周期时间爬取突发话题关联的微博消息,然后爬取微博消息以及转发评论该微博消息的用户信息(用户属性、用户近一个月的历史微博消息),采集的数据集包括话题用户和消息数据集以及用户历史消息数据集。同时,实验过程中利用北京大学PKUVIS 微博可视化工具[12]采集了特定微博话题的微博数据并分析了微博话题的传播扩散过程。
3.1.2 数据描述
微博话题用户和消息数据集包含120130个用户以及1404356条微博消息;用户历史消息数据集包含5025468条微博消息。通过爬虫及可视化工具获取到的微博数据有30个字段,对于本文的实验研究,只有部分字段需要,对无关及重复字段字段进行过滤。最终实验保留字段为:mid,uid,parent,t,reposts_count,attitudes_count,comments_count,text,original_text,user_created_at,followers_count,bi_followers_count,statuses_count,friends_count,username,verified,user_location。
3.1.3 数据预处理
特定微博话题的文本描述一般会包含话题标签文本、非话题标签文本、链接等要素。本文的微博话题特征词描述采用中科院开发的ICTClAS 分词系统(http://ictclas.nlpir.org/)对话题标签内容进行分词,然后对分词结果进行清洗,获得有价值的描述词来描述微博话题,最后保留名词和动词描述微博话题。
3.2 实验结果分析
3.2.1 关键用户挖掘案例分析
实验过程中利用本文提出的GTRank算法针对采集的微博话题数据集进行了关键用户挖掘,并对挖掘结果进行了分析,本节以“双十一斯谷早餐”话题为例,分析本文方法的关键用户挖掘效果。“双十一斯谷早餐”话题的关键用户排序结果如表1所示。
表1 案例分析排序结果
排名 | 用户名 | 话题消息转发、评论、点赞数 | 话题消息发布时间 | 话题消息文本 |
1 | 我和美食的日常 | 848、657、914 | 11月9日19:40 | #双十一斯谷早餐#伊利新品-早餐即食谷物-斯谷 @斯谷Soulgood 瞬间被这魔性的歌曲征服,斯谷,酸奶,腻在一起最合拍,每天早上吃它,会不会也跳起来?元气满满的一天就这样开始了! |
2 | Happy张江 | 2657、1042、836 | 11月10日20:05 | #双十一斯谷早餐#伊利新品-早餐即食谷物-斯谷 @斯谷Soulgood,早餐都组cp了[doge]伊利斯谷和谁是最佳早餐cp?我站酸奶,酸酸甜甜才是爱 |
3 | 回忆专用小马甲 | 1810、641、1288 | 11月10日20:30 | #双十一斯谷早餐#伊利新品-早餐即食谷物-斯谷 @斯谷Soulgood ,明天早餐吃点啥?据说伊利斯谷和牛奶更配噢~[并不简单]一般人我不告诉他!!!别犹豫啦,【猛戳囤货】吧! |
4 | 触手蜀黍 | 1109、237、583 | 11月10日 18:00 | #谁是最佳CP##双十一斯谷早餐#伊利新品-早餐即食谷物-斯谷,@斯谷Soulgood 来来,我是触手蜀黍,黍黍黍黍黍黍……听完都被洗脑了~伊利斯谷到底跟谁更配呢?你选牛奶还是酸奶?蜀黍才不会告诉你我站酸奶的~戳 |
5 | 李铁根 | 428、167、688 | 11月11日00:30 | #双十一斯谷早餐#伊利新品-早餐即食谷物-斯谷 @斯谷Soulgood ,斯谷早餐怎么搭?当然是牛奶配斯谷,健康美味又营养饱腹!你呢,选牛奶还是酸奶? |
由表1可知,在“双十一斯谷早餐”话题关键用户排行榜,排名前5名用户中用户参与“双十一斯谷早餐”话题的时间分布在11月9日、11月10日、11月11日三天,在时间维度上以日期为时间精度对关键用户排名结果进行分析可知,在时间跨度较大的情况下用户参与话题的时间在话题关键用户挖掘中起到主要作用。而且,实验观察了参与微博话题时间较早的历史微博数据,话题关联的相关微博中,微博消息发布越早越容易被其他用户关注。GTRank算法认为,参与话题的时间越早,更容易被其他微博用户关注并造成局部的大量扩散,促使了微博话题的传播扩散,以上从微博用户以日期时间精度的时间维度分析话题关键用户挖掘分析的实验结果也证明了这一结论。
此外, “双十一斯谷早餐”话题关键用户排行榜中,排行榜第二、第三、第四的微博用户“Happy张江”、“回忆专用小马甲”、“触手蜀黍”参与话题的时间先后顺序为“触手蜀黍”、“Happy张江”、“回忆专用小马甲”,由于本文微博话题关键用户挖掘方法综合考虑了用户参与话题的时间以及用户的信任度,微博用户“触手蜀黍”即使参与话题的时间较早,但是通过度量该用户的全局信任及用户间信任,该用户的信任度与微博用户“Happy张江”、“回忆专用小马甲”相比较低,用户信任度在微博话题关键用户排行中起到主要作用。GTRank算法认为,参与话题的微博信任度越高,微博关键用户的排行越靠前,以上综合考虑用户参与话题的时间以及微博用户信任度分析话题关键用户挖掘分析的实验结果也证明了这一结论。
3.2.2 对比实验
本节首先选取了采集的数据集中10个微博话题作为本节实验的微博话题数据(其中包含2个微博水军参与推动的话题),然后针对选取的每个微博话题标注了10个关键用户,通过各个算法的关键用户排行前10名的用户中的关键用户,计算关键用户识别的准确率和召回率。通过准确率和召回率两个指标衡量算法的有效性。
本实验将本文提出的基于用户关系图和信任模型微博话题关键用户挖掘GTRank方法和卢伟胜等人[6]的改进的IOLM模型、吴岘辉等人[2]提出的OpinionLeaderRank方法进行对比,方法对比结果如表2所示。
表2 对比实验结果
关键用户挖掘方法 | 准确率 | 召回率 |
GTRank方法 | 95% | 90% |
改进的IOLM模型 | 80% | 70% |
OpinionLeaderRank方法 | 85% | 75% |
对比实验结果如表2所示,通过分析三种话题关键用户挖掘方法,卢伟胜等人[6]的改进的IOLM模型能够随着时间的推移在线实时地获取与特定话题相关的微博数据并且找出质量较好的话题关键用户 。吴岘辉等人[2]提出的OpinionLeaderRank方法首先根据微博用户的自身属性及用户间话题相关的交互信息等建立的微博图模型,最后采用随机游走的思想来寻找图模型的中心节点即微博中话题关键用户。此两种方法未考虑早期促使话题传播与扩散的以及话题用户的信任度,导致关键用户挖掘排序结果中会丢失促使话题早期传播的用户,并且排名结果对话题中的低质量用户较为敏感。本文的方法能够挖掘出促使微博话题早期传播与扩散的微博话题关键用户并且基于信任模型能够降低低质量用户的排名,在一定程度上提高了挖掘微博话题高质量关键用户的准确性。
4 结论
本文通过将话题关键用户挖掘问题转化为话题关联微博用户排序问题。根据话题特征选取话题关联的微博消息集合,根据消息集合中的用户行为建立用户图,并将时间属性引入到用户权重计算过程中,进而解决了挖掘促使微博话题形成的关键用户的问题。借鉴图挖掘技术,基于话题用户图和用户关系权重得出候选关键用户集合,针对候选关键用户集合中用户的信任度进行评估进而选取高质量关键用户集合,从而准确的挖掘微博话题高质量关键用户。
参考文献:
[1]吴岘辉, 张晖, 杨春明,等. 一种话题相关的微博意见领袖挖掘算法[J]. 小型微型计算机系统, 2014, 35(10):2296-2301.
[2]高志君,郑俊生,安敬民.支持用户偏好查询的领域概念图模型[J].计算机工程与设计,2022,43(03)
[3]余佳. 基于微博用户属性与发文内容的兴趣挖掘方法研究[D].中央民族大学,2019.
项目:黑龙江东方学院科研项目(项目号 :HDFKY190131),项目名称:基于Hadoop的新型图像并行处理模型设计与应用。