[发明专利]基于立场检测的推选预测分析方法在审
申请号: | 202010937515.X | 申请日: | 2020-09-08 |
公开(公告)号: | CN113379095A | 公开(公告)日: | 2021-09-10 |
发明(设计)人: | 李文法;陈莹莹;梁煜博 | 申请(专利权)人: | 北京联合大学 |
主分类号: | G06Q10/04 | 分类号: | G06Q10/04;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 北京思海天达知识产权代理有限公司 11203 | 代理人: | 刘萍 |
地址: | 100101 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 立场 检测 推选 预测 分析 方法 | ||
基于立场检测的推选预测分析方法属于舆情分析领域,为基于社交媒体的推选预测提供了研究基础和方法。其实施方法包括下述步骤:步骤一,人工标注的定义推选相关关键词。步骤二,再使用爬虫技术,爬取训练时间段产生的所有相关文本。步骤三,之后将这些文本抽样标记,并使用标记数据完成立场检测分类器的训练。步骤四,使用爬虫技术,爬取预测时间段产生的所有相关文本。步骤五,再使用通过训练数据训练的立场检测分类器,完成文本的立场检测。步骤六,统计结果,得到表达投票倾向的指标,从而完成推选预测。
技术领域
本发明公开了一种基于立场检测的推选预测分析方法,属于舆情分析领域。
背景技术
使用社交媒体数据完成对于时事的预测与分析一直是重要的课题。例如,舆情分析、预测股市走向等。然而随着社交媒体的用户不断的增加,有更多的用户使用社交媒体分享与讨论他们的投票倾向。同样,每个候选人也开始利用社交媒体为它们争取在推选中的支持。因此,我们可以通过社交媒体,挖掘投票人的投票偏好。
立场检测任务的目的是通过给定文本,针对特定目标主题,分析其中表达出的情感属于支持(肯定),不支持(否定)或无立场(中立),其核心是检测和挖掘意见极性。其相对于情感分析方法挖掘整个文本的情感,侧重于提取文本中作者针对某个主题的立场。
但是,在目前基于社交媒体的推选分析与预测中,大多使用情感分析来完成文本的倾向性分析,而不是立场检测。因此,本发明结合立场检测方法,针对某市代表的推选完成推选的预测,提出了基于立场检测的推选预测模型。
发明内容
为了预测推选结果,本发明建立了基于立场检测的推选分析模型。其中包括定义关键词、模型训练、立场检测、推选预测4个阶段。
为了给标记数据、训练模型等预留时间,本模型从时间上分为两段:一段是训练时间段,另一段是预测时间段。训练时间段规定了模型的训练阶段使用的数据产生的时间。预测时间段规定了立场检测与推选预测阶段使用的数据产生的时间。
本发明使用推选开始日前20-30天作为训练时间段,推选开始日前1-20天与前1-30天作为预测时间段。
本模型首先通过人工标注的定义推选相关关键词。再使用爬虫技术,爬取训练时间段产生的所有相关文本。之后将这些文本抽样标记,并使用标记数据完成立场检测分类器的训练。然后,使用爬虫技术,爬取预测时间段产生的所有相关文本。再使用通过训练数据训练的立场检测分类器,完成文本的立场检测。最后统计结果,得到表达投票倾向的指标,从而完成推选预测。
定义关键词:本阶段的目的是设计推选相关的关键词,从而通过这些词语在社交媒体平台搜索相关的数据。关键词一般为候选人名、候选团体等,本发明使用的关键词为候选人名。
模型的训练:在定义关键词后,本阶段就会结合关键词,通过爬虫技术检索所有在训练时间段内的包含检索词的所有twitter文本,再使用简体繁体翻译工具完成文本的转换。将推文作为立场检测的文本内容,将文本中包含的候选人姓名作为目标主题。
不同选区人口与对于Twitter的使用比例不尽相同,导致涉及到的候选人中,有可能存在部分候选人相关推文为0或是很少的情况,这导致了后续的抽样标记过程中,存在数据不足的情况。因此,为了让立场检测算法可以达到更好的效果。
之后,抽样上述数据中的2000条,由两位标记者,按照Nlpcc2016年的立场检测标记要求,标记文本内容对于目标主题属于支持、不支持或无态度。再将不同标签的数据按照相等比例抽取,生成三个标签数量相等的训练数据集。
然后,本发明搭建了基于双通道CNN-GRU融合网络的微博文本立场检测模型。然后,对训练数据进行停用词的删除、分词与词向量表示,最后用于训练本立场检测模型,生成立场检测分类器。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京联合大学,未经北京联合大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010937515.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:半导体装置
- 下一篇:图像撷取设备和距离测量装置
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理