[发明专利]一种基于二次排序的工单检索方法在审
申请号: | 202011423869.9 | 申请日: | 2020-12-08 |
公开(公告)号: | CN112507687A | 公开(公告)日: | 2021-03-16 |
发明(设计)人: | 张子成 | 申请(专利权)人: | 南京汇宁桀信息科技有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/289;G06F40/126;G06F16/383 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 210046 江苏省南京市栖*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 二次 排序 检索 方法 | ||
1.一种基于二次排序的工单检索方法,其特征在于:包括:
S101:根据工单信息表对工单ID所对应的工单内容进行分词;
S102:根据关键词和工单ID的对应关系建立字典信息表;
S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;
S104:采用Word2Vec模型算法对工单数据进行二次排序;
S105:采用Word2Vec算法对所有工单数据进行训练;
S106:利用word2vec算法将词编码成词向量;
S107:对WMD进行计算。
2.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,所述工单信息表包括工单ID和工单内容。
3.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述字典信息表用于记录所有出现所述关键词的工单ID。
4.根据权利要求3所述的一种基于二次排序的工单检索方法,其特征在于:所述S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。
5.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。
6.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S107:对WMD进行计算,具体步骤包括:
S1:计算每个关键词的nBOW权重;
S2:计算pair-wise的单词距离;
S3:综合S1和S2计算文档之间的距离;
S4:计算出最终两个文本的相似度值。
7.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S1:计算每个关键词的nBOW权重,具体计算公式为:其中ci表示第i个词在文中出现的次数。d表示的是单个关键词的一个权重分布。
8.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2。
9.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S3:综合S1和S2计算文档之间的距离,具体包括:用d和d'表示两个文档的nBOW向量,我们允许d中的任何一个词i转移到d'中的任何一个词j,转移的代价就是c(i,j);定义一个转移矩阵T∈Rn×n,其中Tij表示单词i有多少的权重要转移到单词j;为了保证将d全部转移到d’,必须满足d中从某单词i流出的权重之和等于该单词在d中的nBOW的权重,即同理d’中流入某单词j的权重之和等于该单词在d'中的nBOW的权重,即
10.根据权利要求6和9所述的一种基于二次排序的工单检索方法,其特征在于:所述S4:计算出最终两个文本的相似度值,具体包括:需要找到一个单词匹配方式,使得累加带权重求和距离最小,这个最小距离就是最终俩个文本的相似度,具体计算公式如下:
其中:
最终的相似度值为:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京汇宁桀信息科技有限公司,未经南京汇宁桀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011423869.9/1.html,转载请声明来源钻瓜专利网。