[发明专利]一种分布式的文本近似最近邻语义搜索计算方法在审

申请号：	201810782233.X	申请日：	2018-07-17
公开（公告）号：	CN109101567A	公开（公告）日：	2018-12-28
发明（设计）人：	徐小良;穆诗棋;王宇翔	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	杭州千克知识产权代理有限公司 33246	代理人：	周希良
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	文本语义向量搜索多维索引构建文本向量用户偏好语义搜索存储最近邻均衡多层构建聚类近似文本大规模文本筛选多维空间高效筛选距离计算模型训练实时语义文本分词词向量计算量减小偏好优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种分布式的文本近似最近邻语义搜索计算方法，其特征在于该方法包含如下步骤：

1)构建文本语义向量

收集海量文本数据，文本进行提取词袋，文本分词，对处理后的文本进行word2vec模型训练得到词向量模型wordModel，利用词向量模型计算每一篇文本的文本向量和需求文本向量；

2)构建文本语义向量的多层聚类索引

文本向量二分K-means聚类，通过聚类将语义相关的文本聚集在一起，将语义搜索从全量文本计算缩小到一部分语义相关文本计算，减小计算量；构建文本向量多层聚类索引，通过对文本语义向量超平面空间的划分，快速获取相似文本，提高相似文本获取的准确度；

3)分布式均衡存储文本语义向量

将文本向量在多维空间上的分布量化成点到点之间的距离，语义越相似距离越小，距离接近的文本向量分布式均衡存储到不同的节点，减小后期计算时产生的数据倾斜问题；

4)多维用户偏好筛选的文本语义搜索

包含对大规模文本的多维偏好高效筛选和实时语义精准搜索，在满足用户需求偏好的基础上实时返回与用户需求语义最相似的文本结果。

2.根据权利要求1所述的一种分布式的文本近似最近邻语义搜索计算方法，其特征在于，步骤2)的具体过程为：

文本向量利用二分K-means聚类算法进行n次聚类得到n次聚类结果，每次聚类得到K个簇和K个质心，然后将每次聚类的K个质心放入一个列表，n次聚类得到n个列表构建多层聚类索引，最后每一个文本向量x_j对应着n个聚类编号C1，C2，C3，......，Cn，这些编号用于语义搜索时缩小计算范围，将文本向量，聚类结果编号，筛选条件字段拼接在一起。

3.根据权利要求1所述的一种分布式的文本近似最近邻语义搜索计算方法，其特征在于，步骤3)的具体过程为：

计算所有文本向量的平均向量，计算每一篇文本向量x_j与平均向量欧式距离，并将文本向量按欧式距离按从小到大的顺序排列到列表T，目的是为了将语义相近的文本排在一起；

分布式存储系统有B个block块用来存储文本向量，将文本向量写入block中，列表T中文本向量是排序的文本向量，按顺序取T中的文本向量分别存入分布式存储系统不同的block中，包括：

1)按顺序取T中文本向量，先取T中第一篇文本向量d₁；

2)计算T中前10*B篇文本向量与d₁的欧式距离，并将距离按从小到大的顺序排列；

3)从2)的结果中取前B篇，将其分别写入分布式存储系统B个block中；

4)从T中删掉已经写入分布式存储系统的文本向量；

5)重复1)2)3)4)步骤，直到T中不足B篇文本向量，然后将T中的文本向量按顺序写入block中。

4.根据权利要求1所述的一种分布式的文本近似最近邻语义搜索计算方法，其特征在于，步骤4)的具体过程为：

根据步骤1中的词向量模型，构建需求向量；

构造满足需求的多维用户偏好筛选条件；

查询满足多偏好情况下的文本向量子集；