[发明专利]基于立场检测的推选预测分析方法在审

专利信息
申请号: 202010937515.X 申请日: 2020-09-08
公开(公告)号: CN113379095A 公开(公告)日: 2021-09-10
发明(设计)人: 李文法;陈莹莹;梁煜博 申请(专利权)人: 北京联合大学
主分类号: G06Q10/04 分类号: G06Q10/04;G06F16/35;G06N3/04;G06N3/08
代理公司: 北京思海天达知识产权代理有限公司 11203 代理人: 刘萍
地址: 100101 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 立场 检测 推选 预测 分析 方法
【说明书】:

基于立场检测的推选预测分析方法属于舆情分析领域,为基于社交媒体的推选预测提供了研究基础和方法。其实施方法包括下述步骤:步骤一,人工标注的定义推选相关关键词。步骤二,再使用爬虫技术,爬取训练时间段产生的所有相关文本。步骤三,之后将这些文本抽样标记,并使用标记数据完成立场检测分类器的训练。步骤四,使用爬虫技术,爬取预测时间段产生的所有相关文本。步骤五,再使用通过训练数据训练的立场检测分类器,完成文本的立场检测。步骤六,统计结果,得到表达投票倾向的指标,从而完成推选预测。

技术领域

发明公开了一种基于立场检测的推选预测分析方法,属于舆情分析领域。

背景技术

使用社交媒体数据完成对于时事的预测与分析一直是重要的课题。例如,舆情分析、预测股市走向等。然而随着社交媒体的用户不断的增加,有更多的用户使用社交媒体分享与讨论他们的投票倾向。同样,每个候选人也开始利用社交媒体为它们争取在推选中的支持。因此,我们可以通过社交媒体,挖掘投票人的投票偏好。

立场检测任务的目的是通过给定文本,针对特定目标主题,分析其中表达出的情感属于支持(肯定),不支持(否定)或无立场(中立),其核心是检测和挖掘意见极性。其相对于情感分析方法挖掘整个文本的情感,侧重于提取文本中作者针对某个主题的立场。

但是,在目前基于社交媒体的推选分析与预测中,大多使用情感分析来完成文本的倾向性分析,而不是立场检测。因此,本发明结合立场检测方法,针对某市代表的推选完成推选的预测,提出了基于立场检测的推选预测模型。

发明内容

为了预测推选结果,本发明建立了基于立场检测的推选分析模型。其中包括定义关键词、模型训练、立场检测、推选预测4个阶段。

为了给标记数据、训练模型等预留时间,本模型从时间上分为两段:一段是训练时间段,另一段是预测时间段。训练时间段规定了模型的训练阶段使用的数据产生的时间。预测时间段规定了立场检测与推选预测阶段使用的数据产生的时间。

本发明使用推选开始日前20-30天作为训练时间段,推选开始日前1-20天与前1-30天作为预测时间段。

本模型首先通过人工标注的定义推选相关关键词。再使用爬虫技术,爬取训练时间段产生的所有相关文本。之后将这些文本抽样标记,并使用标记数据完成立场检测分类器的训练。然后,使用爬虫技术,爬取预测时间段产生的所有相关文本。再使用通过训练数据训练的立场检测分类器,完成文本的立场检测。最后统计结果,得到表达投票倾向的指标,从而完成推选预测。

定义关键词:本阶段的目的是设计推选相关的关键词,从而通过这些词语在社交媒体平台搜索相关的数据。关键词一般为候选人名、候选团体等,本发明使用的关键词为候选人名。

模型的训练:在定义关键词后,本阶段就会结合关键词,通过爬虫技术检索所有在训练时间段内的包含检索词的所有twitter文本,再使用简体繁体翻译工具完成文本的转换。将推文作为立场检测的文本内容,将文本中包含的候选人姓名作为目标主题。

不同选区人口与对于Twitter的使用比例不尽相同,导致涉及到的候选人中,有可能存在部分候选人相关推文为0或是很少的情况,这导致了后续的抽样标记过程中,存在数据不足的情况。因此,为了让立场检测算法可以达到更好的效果。

之后,抽样上述数据中的2000条,由两位标记者,按照Nlpcc2016年的立场检测标记要求,标记文本内容对于目标主题属于支持、不支持或无态度。再将不同标签的数据按照相等比例抽取,生成三个标签数量相等的训练数据集。

然后,本发明搭建了基于双通道CNN-GRU融合网络的微博文本立场检测模型。然后,对训练数据进行停用词的删除、分词与词向量表示,最后用于训练本立场检测模型,生成立场检测分类器。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202010937515.X/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top