[发明专利]一种基于二次排序的工单检索方法在审

专利信息
申请号: 202011423869.9 申请日: 2020-12-08
公开(公告)号: CN112507687A 公开(公告)日: 2021-03-16
发明(设计)人: 张子成 申请(专利权)人: 南京汇宁桀信息科技有限公司
主分类号: G06F40/194 分类号: G06F40/194;G06F40/289;G06F40/126;G06F16/383
代理公司: 暂无信息 代理人: 暂无信息
地址: 210046 江苏省南京市栖*** 国省代码: 江苏;32
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 一种 基于 二次 排序 检索 方法
【权利要求书】:

1.一种基于二次排序的工单检索方法,其特征在于:包括:

S101:根据工单信息表对工单ID所对应的工单内容进行分词;

S102:根据关键词和工单ID的对应关系建立字典信息表;

S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID;

S104:采用Word2Vec模型算法对工单数据进行二次排序;

S105:采用Word2Vec算法对所有工单数据进行训练;

S106:利用word2vec算法将词编码成词向量;

S107:对WMD进行计算。

2.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S101:根据工单信息表对工单ID所对应的工单内容进行分词,具体包括:对一个自然语言处理工单进行分词并采用TD-IDF算法对工单的关键语素信息进行提取,所述工单信息表包括工单ID和工单内容。

3.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述字典信息表用于记录所有出现所述关键词的工单ID。

4.根据权利要求3所述的一种基于二次排序的工单检索方法,其特征在于:所述S103:根据字典信息表所对应的ID列表进行检索匹配对应的工单ID,具体包括:对采用TD-IDF算法提取的所述关键词在字典信息表中查询,对所取出的ID列表取交集运算,其ID对应的工单为一次检索匹配结果。

5.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S106:利用word2vec算法将词编码成词向量,具体包括:对于一个长度为n的词汇表,每一个词都有一个word2vec的embedding表示,构成一个X∈Rd·n矩阵,其中每一列Xi∈Rd代表一个第i个单词的d维embedding向量。

6.根据权利要求1所述的一种基于二次排序的工单检索方法,其特征在于:所述S107:对WMD进行计算,具体步骤包括:

S1:计算每个关键词的nBOW权重;

S2:计算pair-wise的单词距离;

S3:综合S1和S2计算文档之间的距离;

S4:计算出最终两个文本的相似度值。

7.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S1:计算每个关键词的nBOW权重,具体计算公式为:其中ci表示第i个词在文中出现的次数。d表示的是单个关键词的一个权重分布。

8.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S2:计算pair-wise的单词距离,具体计算公式为:c(i,j)=||xi-xj||2

9.根据权利要求6所述的一种基于二次排序的工单检索方法,其特征在于:所述S3:综合S1和S2计算文档之间的距离,具体包括:用d和d'表示两个文档的nBOW向量,我们允许d中的任何一个词i转移到d'中的任何一个词j,转移的代价就是c(i,j);定义一个转移矩阵T∈Rn×n,其中Tij表示单词i有多少的权重要转移到单词j;为了保证将d全部转移到d’,必须满足d中从某单词i流出的权重之和等于该单词在d中的nBOW的权重,即同理d’中流入某单词j的权重之和等于该单词在d'中的nBOW的权重,即

10.根据权利要求6和9所述的一种基于二次排序的工单检索方法,其特征在于:所述S4:计算出最终两个文本的相似度值,具体包括:需要找到一个单词匹配方式,使得累加带权重求和距离最小,这个最小距离就是最终俩个文本的相似度,具体计算公式如下:

其中:

最终的相似度值为:

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于南京汇宁桀信息科技有限公司,未经南京汇宁桀信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011423869.9/1.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top