[发明专利]一种面向社交媒体的在线争辩生成方法、系统及存储介质有效
申请号: | 201911191509.8 | 申请日: | 2019-11-28 |
公开(公告)号: | CN111339310B | 公开(公告)日: | 2023-05-16 |
发明(设计)人: | 徐睿峰;杜嘉晨;杨敏;梁斌;范创;陆勤 | 申请(专利权)人: | 哈尔滨工业大学(深圳) |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F16/951;G06F16/9536;G06F40/289;G06Q50/00 |
代理公司: | 深圳市添源创鑫知识产权代理有限公司 44855 | 代理人: | 覃迎峰 |
地址: | 518000 广东省深圳市南*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 面向 社交 媒体 在线 争辩 生成 方法 系统 存储 介质 | ||
本发明提供了一种面向社交媒体的在线争辩生成方法、系统及存储介质,该在线争辩生成方法包括:步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;步骤2:收集与在线争辩文本数据相关的结构化知识与文本知识;步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。本发明的有益效果是:本发明结合知识图谱信息,可以充分利用文本信息中的尝试知识,可以生成更流畅、更具有争辩性的文本。
技术领域
本发明涉及互联网技术领域,尤其涉及一种面向社交媒体的在线争辩生成方法、系统及存储介质。
背景技术
随着Web 2.0技术和互联网特别是移动互联网技术的快速发展,人类使用互联网的方式正在转向信息获取与基于用户的信息创造、交流和共享并重发展。从电子公告牌系统(BBS)、即时通讯(IM)、博客(Blog)开始, Twitter、Facebook、Flickr、LinkedIn、微博等多种多样的社交网络服务不断涌现,推动大批互联网用户自发地在产生及贡献内容。社会化媒体中的文本往往带有大量情感信息。
社交媒体中的在线争辩作为用户表达情感倾向性的重要平台,同时也是改变用户针对某一事件立场倾向性的绝佳机会。通过充分利用在线争辩,我们可以使用基于自然语言生成技术自动地改变某些用户针对事件的看法。
发明内容
本发明提供了一种面向社交媒体的在线争辩生成方法,包括如下步骤:
步骤1:收集用户在社交媒体上针对热点事件的在线争辩文本数据,对在线争辩文本数据进行人工标注;
步骤2:收集与在线争辩文本数据相关的结构化知识与文本知识;
步骤3:结合结构化知识与文本知识,利用在线争辩文本数据训练自然语言生成模型;
步骤4:在真实争辩文本中,使用自然语言生成模型生成相应的争辩文本,该争辩文本用于改变用户的观点。
作为本发明的进一步改进,所述步骤1包括:
步骤1.1:使用爬虫框架在社交媒体上爬取给定热点事件相关的在线争辩文本数据,在线争辩文本数据以多轮对话形式进行储存;
步骤1.2:对爬取的在线争辩文本数据进行预处理,将在线争辩文本数据中与热点事件无关的文本片段删除,同时对文本进行分词及词性标注;
步骤1.3:对在线争辩文本数据进行人工标注。
作为本发明的进一步改进,在所述步骤1.3中,人工标注包括:
将在线争辩文本数据中每一条文本的观点进行标注;
将在线争辩文本数据中潜在可能改变其他用户观点的文本进行打分。
作为本发明的进一步改进,所述步骤2包括:
步骤2.1:通过自动实体链接工具对在线争辩文本数据中提到的实体进行抽取;
步骤2.2:在结构化知识库中通过广度优先算法搜集与在线争辩文本数据提到实体相关的实体信息。
作为本发明的进一步改进,所述步骤3包括:
步骤3.1:将抽取到的知识化知识节点与关系通过TransE算法转化为向量形式;
步骤3.2:将对应的TransE向量拼接在对应的词语向量上;
步骤3.3:使用序列到序列模型在步骤1得到的在线争辩文本数据上训练至收敛,训练过程中输入为词语向量与结构化知识向量的拼接。
本发明还提供了一种面向社交媒体的在线争辩生成系统,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于哈尔滨工业大学(深圳),未经哈尔滨工业大学(深圳)许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911191509.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:固体电解质层和全固体电池
- 下一篇:一种光学检测装置及电子设备