[发明专利]一种基于CPC-ANN的文本情绪原因识别方法在审
申请号: | 202111575527.3 | 申请日: | 2021-12-21 |
公开(公告)号: | CN114004220A | 公开(公告)日: | 2022-02-01 |
发明(设计)人: | 刘德喜;徐秀;万常选 | 申请(专利权)人: | 刘德喜 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/284;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 北京保识知识产权代理事务所(普通合伙) 11874 | 代理人: | 姚天健 |
地址: | 330013 江西省南昌市昌北国家经济*** | 国省代码: | 江西;36 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 cpc ann 文本 情绪 原因 识别 方法 | ||
1.一种基于CPC-ANN的文本情绪原因识别方法,其特征在于,CPC-ANN模型主要分为五层:嵌入层、Bi-LSTM层、Transformer层、注意力层以及CNN输出层,所述方法应用于文本情绪原因识别,包括以下步骤:
S1、相对位置嵌入层,获取已标注原因子句和情绪子句的语料文本,得到文本每个子句的相对位置,再将子句转化为词嵌入矩阵,然后将相对位置嵌入到文本子句的每个词向量中;
S2、Bi-LSTM层,使用Bi-LSTM分别对每个输入的文本子句进行编码,得到融合词上下文的子句向量;
S3、Transformer层,使用Transformer分别对每个输入的文本子句进行编码,得到融合深层语义特征的子句向量;
S4、注意力层,将候选原因子句与其上下文子句融合,用注意力机制捕捉融合后的候选原因子句与情绪子句间的语义关系;
S5、CNN输出层,使用CNN对经注意力计算后的候选原因子句和情绪子句进行卷积,最大池化操作,抽取局部最大语义信息;然后将卷积后的候选原因子句和情绪子句拼接,通过线性分类器softmax分类,来判断该候选原因子句是否是文本情绪原因。
2.根据权利要求1所述的一种基于CPC-ANN的文本情绪原因识别方法,其特征在于:所述S1中,给定一个包含情绪和情绪原因的文本D={c1,c2,...,ck},该文本由k个子句组成,假设文本中包含唯一一个情绪子句ce和至少一个对应的情绪原因子句ca,子句ci={w1,w2,...,wn}由n个词组成;对于文本的子句ci,1≤i≤k,首先通过Word2vec将每个单词wt,1≤t≤n,映射到一个d维向量ut∈Rd,并计算出子句ci相对于情绪子句ce的相对位置Pi;为了增强相对位置信息的作用,将子句的相对位置信息通过相加的方式嵌入到子句的每个词向量中,其如公式(1)所示:
xt=ut+pi (1)
因此,子句ci表示为一个特征映射Xi={x1,x2,...,xn};将情绪子句ce和情绪候选原因子句ca的特征映射分别记为Xe={x1e,x2e,...,xne}和Xa={x1a,x2a,...,xna};
在将原始输入序列ci转化为输入向量矩阵Xi后,因为原始的输入数据是长短不一的文本子句,每个序列ci中含有的词语个数也不尽相同;为此,对训练语料中的原始输入序列长度进行统计,将所有输入序列用占位符补充至最大长度,将统一长度的输入序列输入到模型中。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于刘德喜,未经刘德喜许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111575527.3/1.html,转载请声明来源钻瓜专利网。