[发明专利]一种基于图注意力神经网络的虚假影评检测方法在审
申请号: | 202310255641.0 | 申请日: | 2023-03-16 |
公开(公告)号: | CN116166806A | 公开(公告)日: | 2023-05-26 |
发明(设计)人: | 王海舟;杨菲;陈雅宁;金地;周罡;王文贤;陈兴蜀 | 申请(专利权)人: | 四川大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/126;G06F40/216;G06F16/951;G06F16/955;G06N3/04 |
代理公司: | 成都禾创知家知识产权代理有限公司 51284 | 代理人: | 刘凯 |
地址: | 610065 四川*** | 国省代码: | 四川;51 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 注意力 神经网络 虚假 影评 检测 方法 | ||
1.一种基于图注意力神经网络的虚假影评检测方法,其特征在于,包括以下步骤:
步骤1:数据集构建
设计有针对性的爬虫,采集某电影平台一定时间段内各种题材的电影基本信息、相关的电影评论信息及发表评论用户的基本信息,并对评论文本数据进行标注,构建影评数据集;
步骤2:特征提取
根据电影的电影简介进行关键词提取后使用TF-IDF算法生成电影特征向量;对用户的等级、阅片数和过往评论一系列数据进行归一化,得到用户特征向量;使用基于BERT模型的ConSERT框架对评论文本进行句向量的提取,得到评论特征向量;
步骤3:检测模型
构建基于图注意力神经网络的检测模型,将提取到的电影特征向量、用户特征向量和评论特征向量进行拼接作为模型的输入;使用一个结点级的注意力机制,以学习基于元路径的邻居的权重,并将其加权汇总以获得第一步结点嵌入;再使用基于元路径的注意力机制,分辨元路径的不同,学习不同元路径的权重,将第一步获得的结点嵌入进行加权组合得到最终的结点嵌入以进行分类任务,最终输出检测结果。
2.根据权利要求1所述的基于图注意力神经网络的虚假影评检测方法,其特征在于,所述步骤1具体包括:
步骤1.1:使用电影名构建一个URL,并使用Requests库构建一个Request对象,向服务器请求资源,返回电影相关信息后使用BeautifulSoup库对返回的网页进行解析,获取电影名所对应的电影ID;
步骤1.2:使用该电影平台的API接口,结合电影ID构建URL,使用Request请求资源,返回包含电影详细信息和电影评论信息的JSON文件;
步骤1.3:结合从电影评论信息中获取的用户ID信息,获取用户主页的JSON文件,得到用户信息;
步骤1.4:制定针对虚假影评的数据标注标准,对提取到的电影评论进行数据标注。
3.根据权利要求2所述的基于图注意力神经网络的虚假影评检测方法,其特征在于,所述电影详细信息包括:电影ID、电影评分、导演、主演、电影评分分布、电影上映时间、电影类型、电影观看人数和电影想看人数;所述电影评论信息包括:评论内容、评论评分、评论点赞数,评论回复数、评论时间、评论用户名;所述用户信息包括:用户ID、用户等级、购票信息、用户评论总数、用户话题总数、用户想看电影数、用户观看电影数。
4.根据权利要求1所述的基于图注意力神经网络的虚假影评检测方法,其特征在于,所述步骤2中电影特征向量的提取具体包括:
步骤2.1.1:对于给定的电影简介文本D进行包括分词、词性标注和去除停用词的数据预处理操作,得到n个候选关键词,即D=[t1,t2,...,tn];
步骤2.1.2:计算词语ti在文本D中的词频TF;
步骤2.1.3:计算词语ti在整个语料的逆文本频率Dt为语料库中词语ti出现的文档个数,Dn为文档总数;
步骤2.1.4:计算得到词语ti的TF-IDF值,进而计算得到所有候选关键词的TF-IDF
数值;
步骤2.1.5:对候选关键词计算结果进行倒序排列,得到排名前N个词汇作为电影简介文本关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于四川大学,未经四川大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202310255641.0/1.html,转载请声明来源钻瓜专利网。