[发明专利]一种基于评论树的在线社交媒体新闻争议性检测方法在审
申请号: | 202210124657.3 | 申请日: | 2022-02-10 |
公开(公告)号: | CN114625944A | 公开(公告)日: | 2022-06-14 |
发明(设计)人: | 闵勇;卫宁;宣琦;傅晨波;龙杰 | 申请(专利权)人: | 浙江工业大学 |
主分类号: | G06F16/906 | 分类号: | G06F16/906;G06F16/9536;G06K9/62 |
代理公司: | 杭州天正专利事务所有限公司 33201 | 代理人: | 王兵;孙家丰 |
地址: | 310014 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 评论 在线 社交 媒体 新闻 争议 检测 方法 | ||
1.一种在线社交媒体新闻争议性检测方法,其特征在于,包括:
S1:预设主题的新闻及评论收集:从在线社交媒体的热门主题中选择争议性主题和非争议性主题,收集一段时间内每个主题中的所有新闻及其所有评论,解析为可读模式并进行整理,得到在线社交媒体新闻及评论数据集;
S2:提取评论树的多维度特征:读取上述的在线社交媒体新闻及评论数据集中的文本内容、回复关系、用户信息,根据以上信息对每一个新闻构建评论树,并提取评论树的多维度特征作为训练数据集;
S3:训练新闻争议性检测模型:将上述的训练数据集中,对于每个维度特征使用一个弱分类器进行训练,之后对这些弱分类器通过Boosting方法训练强分类器,得到新闻争议性检测模型;
S4:模型预测:对待检测的新闻,获取其新闻及评论,解析为可读模式并进行整理,根据获取的信息构建评论树,提取该待检测新闻的评论树多维度特征作为输入,通过新闻争议性检测模型,得到该待检测新闻的争议性检测结果。
2.如权利要求1所述的在线社交媒体新闻争议性检测方法,其特征在于,所述步骤S1具体包括:
S1.1:从在线社交媒体的热门主题中筛选主题,区分为两种类型,分别是争议性主题和非争议性主题,区分的标准为该主题中的新闻是否容易引起争论,是则为争议性主题,反之则为非争议性主题;
S1.2:收集一定时间范围内在线社交媒体中上述预设主题的所有新闻及所有评论,解析为可读模式并进行整理,对每一个新闻添加所属主题的争议性作为标签,得到在线社交媒体新闻及评论数据集。
3.如权利要求1所述的在线社交媒体新闻争议性检测方法,其特征在于,所述步骤S2具体包括:
S2.1:提取在线社交媒体新闻及评论数据集中的新闻及评论的文本内容、回复关系、用户信息;
S2.2:根据以上信息对每个新闻构建评论树;
S2.3:从每个新闻的评论树中提取以下38个特征,选取全部或者其中部分特征作为评论树的多维度特征,采用one-hot编码,分类标签为新闻所属的主题争议性,作为训练数据集,所有特征如下:
1.评论树的评论数量
2.评论树的用户数
3.边的数量
4.评论的节点度数
5.评论树节点的平均度数
6.评论树节点的最大度数
7.评论在评论树中的深度
8.评论树的平均深度
9.评论树的最大深度
10.评论树中子树的数量
11.评论树的平均子树大小
12.评论树的最大子树大小
13.评论的发布时间
14.评论树的平均回复时间间隔
15.评论树的最大回复时间间隔
16.评论树的最小回复时间间隔
17.评论文本的长度
18.评论文本内容的情感倾向
19.评论文本内容的字符数
20.评论文本内容的语气词数量
21.评论文本内容的语气词数量占该评论词数的比例
22.评论文本内容的否定词数量
23.评论文本内容的否定词数量占该评论词数的比例
24.评论文本内容的强程度词数目
25.评论文本内容的强程度词数目占该评论词数的比例
26.评论文本内容的弱程度词数目
27.评论文本内容的弱程度词数目占该评论词数的比例
28.评论文本内容的不确定程度词数
29.评论文本内容的不确定程度词数占该评论词数的比例
30.评论文本内容的转折词数
31.评论文本内容的转折词数占该评论词数的比例
32.评论文本内容的第一、二、三人称代词的数目
33.评论文本内容的第一、二、三人称代词的数目占该评论词数的比例
34.评论的点赞数
35.评论二元motif的数量
36.评论二元motif在评论树中评论节点覆盖率
37.评论二元点赞差异motif的数量
38.评论二元点赞差异motif的数量占评论二元motif的比例。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浙江工业大学,未经浙江工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210124657.3/1.html,转载请声明来源钻瓜专利网。