[发明专利]文本中词的重要性程度确定方法、介质、装置和计算设备在审
申请号: | 202111327753.X | 申请日: | 2021-11-10 |
公开(公告)号: | CN114091434A | 公开(公告)日: | 2022-02-25 |
发明(设计)人: | 勒一凡;罗晓华;杨杰;许翔;王强 | 申请(专利权)人: | 杭州网易再顾科技有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/289;G06F16/35;G06N3/08;G06N3/04 |
代理公司: | 北京博思佳知识产权代理有限公司 11415 | 代理人: | 申亚辉 |
地址: | 310052 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 中词 重要性 程度 确定 方法 介质 装置 计算 设备 | ||
1.一种文本中词的重要性程度确定方法,其中,包括如下步骤:
获取目标文本的文本向量,以及用于表征文本识别模型对所述文本向量的识别结果的概率值,其中,所述文本向量是基于向量合并算法对所述目标文本中各个词的词向量的相同维度进行合并后得到的,所述文本识别模型的算法结构包括神经网络,所述神经网络包括输入层、若干中间层以及输出层;
根据所述输出层的前一个中间层中每个神经元对所述输出层的贡献比例,将所述概率值按比例分配给该中间层中每个神经元,其分配结果为每个神经元对应的贡献值,其中,该中间层中每个神经元对所述输出层的贡献比例包括该中间层中每个神经元的参数值乘以该神经元与所述输出层之间的连接权重值;
选取任一中间层,并根据该中间层的前一层中每个神经元对该中间层中每个神经元的贡献比例将该中间层中每个神经元对应的贡献值按比例分配给所述前一层中每个神经元,其中,所述前一层包括所述输入层或其他中间层,所述前一层中第一神经元对该中间层中第二神经元的贡献比例包括该第一神经元的参数值乘以该第一神经元与该第二神经元之间的连接权重值;
根据所述向量合并算法的逆运算将每个维度的贡献值分配给各个词的词向量的该维度,其中,所述输入层中每个神经元对应的贡献值为该神经元对应的维度的贡献值;
对每个词的词向量的各维度分别对应的贡献值进行求和计算,并根据计算结果得到该词的重要性程度表征值。
2.如权利要求1所述方法,其中,根据计算结果得到该词的重要性程度表征值的步骤,还包括如下步骤:
将计算结果的绝对值,作为该词的重要性程度表征值。
3.如权利要求1或2所述方法,所述目标文本为用于训练文本识别模型的标准文本,所述方法还包括对抗文本生成步骤,所述对抗文本生成步骤包括:
基于所述标准文本中每个词的重要性程度表征值,选择若干重要性词作为待替换词;
根据所述标准文本中位于每个待替换词之前的词与之后的词,预测每个待替换词对应的若干备选词;
根据至少部分待替换词对应的备选词,对所述标准文本进行词替换操作,得到若干备选文本;
使用所述文本识别模型分别识别每个备选文本,将若干满足对抗条件的备选文本确定为对抗文本;
其中,所述对抗条件为,所述文本识别模型对该备选文本的识别结果区别于对所述标准文本的识别结果。
4.如权利要求3所述方法,其中,所述预测每个待替换词对应的若干备选词的步骤还包括:
针对每个待替换词执行以下步骤:
将所述标准文本中该待替换词的位置进行遮掩标记之后,将所述标准文本输入Bert模型,输出该遮掩标记对应的预测概率值集合;
按照预测概率值由大到小的顺序,依次确定除该待替换词之外的若干词为备选词,
其中,所述预测概率值集合包括多个词分别对应的预测概率值,其中每个词对应的预测概率值用于预测该词出现在该遮掩标记对应的位置上的概率。
5.如权利要求4所述方法,其中,所述文本识别模型用于对目标业务场景下的文本进行识别,
其中,在将所述标准文本输入Bert模型之前,所述方法还包括:
利用目标业务场景下的文本对Bert模型进行场景自适应训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州网易再顾科技有限公司,未经杭州网易再顾科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111327753.X/1.html,转载请声明来源钻瓜专利网。
- 上一篇:应用程序的合规性判别方法和装置
- 下一篇:一种配置方法、装置、设备及存储介质