[发明专利]一种兼顾可解释性的网络虚假评论的自动识别方法及系统有效
申请号: | 201911173946.7 | 申请日: | 2019-11-26 |
公开(公告)号: | CN110941953B | 公开(公告)日: | 2023-08-01 |
发明(设计)人: | 王伟军;黄英辉;刘辉 | 申请(专利权)人: | 华中师范大学 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F16/906;G06F16/958 |
代理公司: | 北京金智普华知识产权代理有限公司 11401 | 代理人: | 杨采良 |
地址: | 430079 湖*** | 国省代码: | 湖北;42 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 兼顾 解释性 网络 虚假 评论 自动识别 方法 系统 | ||
本发明属于网络评论信息处理技术领域,公开了一种兼顾可解释性的网络虚假评论的自动识别方法及系统,构建网络虚假评论撰写人的语言使用行为和心理分析框架,构建中文网络评论语言线索指标体系;结合文本分布式表示构建虚假评论文本特征集;构建虚假评论分类器,判定网络评论的真假;量化评价不同解释性指标的重要性,获得维度均值具有显著区别的真实和虚假评论线索;根据候选网络评论在可解释性语言线索维度上的值,与所得到的解释性特征的均值进行比较,给出虚假评论自动识别方法判定结果的解释。本发明实现了对虚假网络评论的准确、自动识别和易于接受的、稳定可靠的解释,提升现有网络虚假评论自动分类方法的准确性和可解释性。
技术领域
本发明属于网络评论信息处理技术领域,尤其涉及一种兼顾可解释性的网络虚假评论的自动识别方法及系统。
背景技术
目前,业内常用的现有技术是这样的:早期的虚假评论标准中强调了用户评分与主流评分之间的差异,对用户数据规模要求较高,其结果往往过于粗糙。近年来,一些研究者将评论可信度问题转化为区分虚假和真实评论二元机器学习分类任务。其中,相关研究普遍采用了监督和半监督机器学习方法,并依赖于用户行为和评分的统计规律特征。然而,相关模型中所构建的分类器大多针对流行的项目和成熟的用户。而在现实情况下,大量新项目、新用户,其历史和活动的关联元数据经常不可获取。针对这一问题,相关工作聚焦于对用户评论的文本特征进行分析。从计算语言学视角上,相关研究可以大致分为基于语法分析、语义分析和基于文体元数据分析这三大类。
基于语法分析的虚假评论自动识别研究主要提取文本中的词袋、词性特征构建机器学习分类预测模型。具体而言,词袋特征多利用文本中词汇特征进行表示,如英文中的单词(unigram)、双词(bigram)和三词(trigram)等,或者在此基础上对其词袋特征的词频进行统计分析。
基于语义分析的虚假评论自动识别研究侧重于语义表征、语义相似和情感分布等文本语义层面信息的抽取和表示。相关方法有情感分析、语义表示学习、语义相似性计算等。
文体和元数据结合的虚假评论自动识别方法主要致力于挖掘评论的语言风格及评论撰写者的书写习惯。文体特征主要包含词汇和句法特征。词汇特征如大写字母、数字和第一人称的个数、评论的平均长度、短单词的比例等;句法特征如标点符号、功能词等的数量。
总体而言,在中文网络虚假评论情境中,现有技术存在的问题是:(1)如何将句法、语义以及文体元等文本特征进行整合以实现更优的分类准确率,实现更优的分类准确率仍是一大挑战。
(2)如何从一个统一的认知框架解释虚假评论撰写者的内在动机和词汇使用行为,导致相关预测方法缺乏解释性,无法给出真实与虚假在线评论的判定理由。
(3)使用深度神经网络增强虚假评论的自动识别方法具有三个方面的潜在优势。首先,深度神经网络使用稠密、庞大的隐藏层节点实现自动特征组合,可以捕获复杂文本的全局语义信息;而这些信息很难被传统虚假评论识别中的离散人工特征所表征。第二,深度神经网络以分布式嵌入词作为训练模型的输入,因而可以从大规模的在线评论文本中进行训练,从而在一定程度上减轻了所标注数据的稀疏性。但是,在虚假评论自动识别技术中,新兴神经网络表示学习技术能否和以上语言线索中的句法、语义和文体特征进行融合,以增强自动分类方法的性能仍不得而知。
要兼顾虚假网络评论自动识别的解释性和准确性,就必须深入挖掘评论文本背后的评论人的心理特点。但是,一方面,现有方法还没有提出有哪些心理特征能有效解释真实与在线虚假评论撰写人的心理过程。进一步,如何能够将网络评论中的语言线索与评论人心理特点进行映射仍不得而知。另一方面,要满足网络虚假评论自动识别的准确性和可解释性,包含可解释性维度的语言线索就必须与文本分布式表征特征进行有机整合。而现有的自动分类方法缺乏对这一整合过程的实现思路、操作步骤和方法实现。
综上所述,现有技术存在的问题是:(1)现有技术未有一个统一的认知框架解释虚假评论撰写者的内在动机和词汇使用行为,导致相关预测方法缺乏解释性,无法给出真实与虚假在线评论的判定理由。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华中师范大学,未经华中师范大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911173946.7/2.html,转载请声明来源钻瓜专利网。