[发明专利]文本特征语义提取方法、装置、电子设备及存储介质在审
申请号: | 202010482540.3 | 申请日: | 2020-05-29 |
公开(公告)号: | CN111680168A | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 王伟 | 申请(专利权)人: | 平安银行股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/216;G06F40/289;G06F40/30;G06N3/04 |
代理公司: | 深圳市沃德知识产权代理事务所(普通合伙) 44347 | 代理人: | 高杰;于志光 |
地址: | 518000 广东*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 特征 语义 提取 方法 装置 电子设备 存储 介质 | ||
1.一种文本特征语义提取方法,其特征在于,所述方法包括:
获取文本集,将所述文本集中文本的所有句子调整为相同长度,得到目标句子集,根据所述目标句子集建立文本矩阵;
对所述文本集中文本的所有句子进行分词,得到词语集;
将所述词语集转换为词语向量集,利用预设的正余弦波函数获取所述词语向量集中每一个词语向量的位置向量,得到词位置向量集;
根据所述文本矩阵,获取所述词语集中所有词语的邻接词序列,对所述邻接词序列进行编码,生成邻接词向量集;
合并所述词语向量集、所述词位置向量集以及所述邻接词向量集,得到目标词向量集;
利用一个文本特征语义提取模型对所述目标词向量集进行编码和解码操作,得到所述目标词向量集的文本特征向量序列,根据所述文本特征向量序列,生成文本特征语义。
2.如权利要求1所述的文本特征语义提取方法,其特征在于,所述预设的正余弦波函数包括:
其中,PE(pos,2i)表示句子中第偶数个词语向量的位置向量,PE(pos,2i+1)表示句子中第奇数个词语向量的位置向量,pos表示词位置向量索引,i表示在句子中第i个词语向量,dmodel表示词语向量维度。
3.如权利要求1所述的文本特征语义提取方法,其特征在于,所述对所述邻接词序列进行编码,生成邻接词向量集,包括:
利用前向编码器对所述邻接词序列中的每一个词语进行前向编码,得到该词语的前向邻接词向量;
利用后向编码器对所述邻接词序列中的每一个词语进行后向编码,得到该词语的后向邻接词向量;
将所述每一个词语的所述前向邻接词向量与所述后向邻接词向量进行拼接,得到邻接词向量,根据所述邻接词向量生成所述邻接词向量集。
4.如权利要求1所述的文本特征语义提取方法,其特征在于,所述生成邻接词向量集之后,该方法还包括:
对所述邻接词向量集中每一个邻接词向量进行权重标注;
根据所述权重标注,对所述邻接词向量集进行优先级排序,根据所述优先级排序,执行与所述词语向量集和所述词位置向量集的合并。
5.如权利要求4中所述的文本特征语义提取方法,其特征在于,所述对所述邻接词向量集进行权重标注,包括:
根据所述邻接词向量集建立一个矩阵;
随机设置所述矩阵中每个邻接词向量的标签序列号;
根据所述标签序列号,生成所述矩阵中对应邻接词向量的权重向量序列号;
计算所述权重向量序列号对应的邻接词向量的权重。
6.如权利要求1至5中任意一项所述的文本特征语义提取方法,其特征在于,该方法还包括:训练所述文本特征语义模型,其中,所述训练包括:
获取训练所述文本特征语义模型的语料文本;
计算所述语料文本中每个词语的频率和逆文档频率;
将所述每个词语的频率和逆文档频率相乘,得到词语权重,根据所述词语权重,将语料文本中的词语进行优先级排序并标记ID,生成词语权重序列;
对所述语料文本中每个词语进行词性分析,统计每种词性所占比例,按照词性所占比例,对所述语料文本中每个词语进行优先级排序并标记ID,形成词性属性序列;
将每个词语的词语权重序列ID与词性属性序列进行相乘并排序,得到目标词语序列;
利用所述目标词语序列训练所述文本特征语义模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于平安银行股份有限公司,未经平安银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010482540.3/1.html,转载请声明来源钻瓜专利网。