[发明专利]一种分布式的文本近似最近邻语义搜索计算方法在审

申请号：	201810782233.X	申请日：	2018-07-17
公开（公告）号：	CN109101567A	公开（公告）日：	2018-12-28
发明（设计）人：	徐小良;穆诗棋;王宇翔	申请（专利权）人：	杭州电子科技大学
主分类号：	G06F17/30	分类号：	G06F17/30;G06F17/27
代理公司：	杭州千克知识产权代理有限公司 33246	代理人：	周希良
地址：	310018 浙***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种分布式的文本近似最近邻语义搜索计算方法。本发明包含文本语义向量的构建，文本语义向量的多层聚类索引构建，文本语义向量的分布式均衡存储，多维用户偏好筛选的文本语义搜索；所述文本语义向量的构建包括词袋提取，文本分词，词向量模型训练，文本向量计算；所述文本语义向量的多层聚类索引构建包含文本向量二分Kmeans聚类；所述文本语义向量的分布式均衡存储包含文本语义向量多维空间的距离计算和分布式均衡存储；所述多维用户偏好筛选的文本语义搜索包含对大规模文本的多维偏好高效筛选和实时语义精准搜索。本发明减小了计算量和优化了搜索速度。
搜索关键词：	文本语义向量搜索多维索引构建文本向量用户偏好语义搜索存储最近邻均衡多层构建聚类近似文本大规模文本筛选多维空间高效筛选距离计算模型训练实时语义文本分词词向量计算量减小偏好优化
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种分布式的文本近似最近邻语义搜索计算方法，其特征在于该方法包含如下步骤：1)构建文本语义向量收集海量文本数据，文本进行提取词袋，文本分词，对处理后的文本进行word2vec模型训练得到词向量模型wordModel，利用词向量模型计算每一篇文本的文本向量和需求文本向量；2)构建文本语义向量的多层聚类索引文本向量二分K‑means聚类，通过聚类将语义相关的文本聚集在一起，将语义搜索从全量文本计算缩小到一部分语义相关文本计算，减小计算量；构建文本向量多层聚类索引，通过对文本语义向量超平面空间的划分，快速获取相似文本，提高相似文本获取的准确度；3)分布式均衡存储文本语义向量将文本向量在多维空间上的分布量化成点到点之间的距离，语义越相似距离越小，距离接近的文本向量分布式均衡存储到不同的节点，减小后期计算时产生的数据倾斜问题；4)多维用户偏好筛选的文本语义搜索包含对大规模文本的多维偏好高效筛选和实时语义精准搜索，在满足用户需求偏好的基础上实时返回与用户需求语义最相似的文本结果。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学，未经杭州电子科技大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201810782233.X/，转载请声明来源钻瓜专利网。

上一篇：一种对数据库信息进行动态掩码的方法及系统
下一篇：基于XgBoost算法的交通高危人员识别方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理
G06F17-00 特别适用于特定功能的数字计算设备或数据处理设备或数据处理方法
G06F17-10 .复杂数学运算的
G06F17-20 .处理自然语言数据的
G06F17-30 .信息检索；及其数据库结构
G06F17-40 .数据的获取和记录
G06F17-50 .计算机辅助设计

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种分布式的文本近似最近邻语义搜索计算方法在审

专利文献下载