[发明专利]文本中词的重要性程度确定方法、介质、装置和计算设备在审
申请号: | 202111327753.X | 申请日: | 2021-11-10 |
公开(公告)号: | CN114091434A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 勒一凡;罗晓华;杨杰;许翔;王强 | 申请(专利权)人: | 杭州网易再顾科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/35;G06N3/08;G06N3/04 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 申亚辉 |
地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 中词 重要性 程度 确定 方法 介质 装置 计算 设备 | ||
本公开的实施方式提供了一种文本中词的重要性程度确定方法、介质、装置和计算设备。利用具有神经网络算法结构的文本识别模型对目标文件的文本向量进行识别,将文本识别模型输出的用于表征识别结果的概率值,完成文本向量的正向传播。然后,将该概率值由神经网络的输出层向输入层进行逐层反向传播。
技术领域
本公开的实施方式涉及人工智能技术领域,更具体地,本公开的实施方式涉及一种文本中词的重要性程度确定方法、介质、装置和计算设备。
背景技术
目前,一些文本处理任务中涉及到确定文本中重要性词的子任务。所谓的重要性词,可以是指对文本的含义贡献比较大的词。
例如,在对抗文本生成任务中,需要基于标准文本生成对抗文本,其中涉及到的一个子任务为,确定标准文本中的一个或多个重要性词。
基于此,需要一种确定文本中词的重要性程度的技术方案。
发明内容
在本上下文中,本公开的实施方式期望提供一种确定文本中词的重要性程度的方法、介质、装置和计算设备,以便得到更有效的对抗文本用于优化训练文本识别模型。
在本公开实施方式的第一方面中,提供了一种文本中词的重要性程度确定方法,其中,包括如下步骤:
获取目标文本的文本向量,以及用于表征文本识别模型对所述文本向量的识别结果的概率值,其中,所述文本向量是基于向量合并算法对所述目标文本中各个词的词向量的相同维度进行合并后得到的,所述文本识别模型的算法结构包括神经网络,所述神经网络包括输入层、若干中间层以及输出层;
根据所述输出层的前一个中间层中每个神经元对所述输出层的贡献比例,将所述概率值按比例分配给该中间层中每个神经元,其分配结果为每个神经元对应的贡献值,其中,该中间层中每个神经元对所述输出层的贡献比例包括该中间层中每个神经元的参数值乘以该神经元与所述输出层之间的连接权重值;
选取任一中间层,并根据该中间层的前一层中每个神经元对该中间层中每个神经元的贡献比例将该中间层中每个神经元对应的贡献值按比例分配给所述前一层中每个神经元,其中,所述前一层包括所述输入层或其他中间层,所述前一层中第一神经元对该中间层中第二神经元的贡献比例包括该第一神经元的参数值乘以该第一神经元与该第二神经元之间的连接权重值;
根据所述向量合并算法的逆运算将每个维度的贡献值分配给各个词的词向量的该维度,其中,所述输入层中每个神经元对应的贡献值为该神经元对应的维度的贡献值;
对每个词的词向量的各维度分别对应的贡献值进行求和计算,并根据计算结果得到该词的重要性程度表征值。
在本公开的一个实施例中,其中,根据计算结果得到该词的重要性程度表征值的步骤,还包括如下步骤:
将计算结果的绝对值,作为该词的重要性程度表征值。
在本公开的一个实施例中,所述目标文本为用于训练文本识别模型的标准文本,所述方法还包括对抗文本生成步骤,所述对抗文本生成步骤包括:
基于所述标准文本中每个词的重要性程度表征值,选择若干重要性词作为待替换词;
根据所述标准文本中位于每个待替换词之前的词与之后的词,预测每个待替换词对应的若干备选词;
根据至少部分待替换词对应的备选词,对所述标准文本进行词替换操作,得到若干备选文本;
使用所述文本识别模型分别识别每个备选文本,将若干满足对抗条件的备选文本确定为对抗文本;
其中,所述对抗条件为,所述文本识别模型对该备选文本的识别结果区别于对所述标准文本的识别结果。
在本公开的一个实施例中,
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易再顾科技有限公司,未经杭州网易再顾科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111327753.X/2.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序的合规性判别方法和装置
- 下一篇:一种配置方法、装置、设备及存储介质