[发明专利]基于正文评论交互式注意力的微博案件方面级观点识别方法在审

专利信息
申请号: 202110163045.0 申请日: 2021-02-05
公开(公告)号: CN112926336A 公开(公告)日: 2021-06-08
发明(设计)人: 余正涛;段玲;郭军军;相艳;黄于欣;线岩团 申请(专利权)人: 昆明理工大学
主分类号: G06F40/30 分类号: G06F40/30;G06F40/289;G06F40/242;G06F40/126;G06F16/951;G06F40/216;G06F16/35;G06K9/62
代理公司: 昆明人从众知识产权代理有限公司 53204 代理人: 何娇
地址: 650093 云*** 国省代码: 云南;53
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 基于 正文 评论 交互式 注意力 案件 方面 观点 识别 方法
【权利要求书】:

1.基于正文评论交互式注意力的微博案件方面级观点识别方法,其特征在于,所述方法包括:

Step1、构建微博案件语料库,再对语料进行分词、构建词典;

Step2、使用多头注意力机制对微博正文和评论进行编码;

Step3、通过交互式注意力机制融合正文和评论的信息;

Step4、使用多标签分类器识别微博案件的方面级观点。

2.根据权利要求1所述的基于正文评论交互式注意力的微博案件方面级观点识别方法,其特征在于:所述步骤Step1的具体步骤为:

Step1.1、首先利用网络爬虫程序,从互联网上爬取微博案件语料;

Step1.2、把已爬取出的微博案件语料,经过过滤、去噪音处理,构建出微博案件数据集;

Step1.3、从Step1.2数据集中抽取出微博案件相关评论,与所属正文对应,打上相应的标签,经过人工处理形成微博案件语料,使用中文分词工具对评论进行分词,并构建一个词典。

3.根据权利要求2所述的基于正文评论交互式注意力的微博案件方面级观点识别方法,其特征在于:所述步骤Step1.3的具体步骤:

Step1.3.1、从Step1.2数据集中抽取出微博案件相关评论,与所属正文一一对应;

Step1.3.2、给每条评论打上相对应的标签;

Step1.3.3、使用中文分词工具结巴对评论进行分词,所有评论按批次输入,直到全部评论输入完成;

Step1.3.4、将Step1.3.3得到的词构建成一个词典,具体操作为先构建一个空的字典,将每个词输入到空字典内,如果字典内不包含该词,则将该词加入到词典内,如果包含该词,则跳过进行下一个词,依次完成。

4.根据权利要求1所述的基于正文评论交互式注意力的微博案件方面级观点识别方法,其特征在于:所述步骤Step2的具体步骤为:

Step2.1、微博案件的正文和评论作为模型两端的输入,对正文和评论采用同样的编码方式,将每个句子表示成一个得到关于句子的嵌入矩阵;

Step2.2、采用多头注意力机制对微博正文和评论编码,使得句子中的每个词与所有词计算关注,得到关于微博案件正文和评论的表征。

5.根据权利要求4所述的基于正文评论交互式注意力的微博案件方面级观点识别方法,其特征在于:所述Step2.1中,将微博案件的正文和评论作为编码端的两个输入,假设一个句子,其中有n个词,句子X表示公式如下:

X=(x1,x2,...,xn)

句子做词嵌入后用单词嵌入序列表示公式如下:

E=(w1,w2,...,wn)

E是将句子表示成一个二维嵌入矩阵的序列,它将句子的所有嵌入连接在一起,其维度大小为n×d,n是单词的个数,d为句子嵌入的维度,现在序列E中的每个元素是相互独立的。

6.根据权利要求4所述的基于正文评论交互式注意力的微博案件方面级观点识别方法,其特征在于:所述Step2.2中,使用多头注意力机制读取每个文本序列并计算每个词与所有词的关注,将二维嵌入矩阵E转化为固定的单个值Q,K,V,对其进行线性变化并输入到头数为8头的多头注意力机制中,最后将所有头的输出值进行拼接,然后通过线性变换层转换变成一个和单头一样的输出值,具体计算公式如下:

A=Linear(Multihead(Q,K,V))

矩阵A表示的是文本序列通过多头注意力机制编码得到的表征;Q,K,V是固定的单个值;

对正文和评论均采用多头注意力机制编码,使得句子中的每个词与所有词计算关注,得到关于微博案件正文和评论的表征。

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于昆明理工大学,未经昆明理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202110163045.0/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top