[发明专利]一种分布式的文本近似最近邻语义搜索计算方法在审
申请号: | 201810782233.X | 申请日: | 2018-07-17 |
公开(公告)号: | CN109101567A | 公开(公告)日: | 2018-12-28 |
发明(设计)人: | 徐小良;穆诗棋;王宇翔 | 申请(专利权)人: | 杭州电子科技大学 |
主分类号: | G06F17/30 | 分类号: | G06F17/30;G06F17/27 |
代理公司: | 杭州千克知识产权代理有限公司 33246 | 代理人: | 周希良 |
地址: | 310018 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本语义 向量 搜索 多维 索引构建 文本向量 用户偏好 语义搜索 存储 最近邻 均衡 多层 构建 聚类 近似 文本 大规模文本 筛选 多维空间 高效筛选 距离计算 模型训练 实时语义 文本分词 词向量 计算量 减小 偏好 优化 | ||
本发明公开了一种分布式的文本近似最近邻语义搜索计算方法。本发明包含文本语义向量的构建,文本语义向量的多层聚类索引构建,文本语义向量的分布式均衡存储,多维用户偏好筛选的文本语义搜索;所述文本语义向量的构建包括词袋提取,文本分词,词向量模型训练,文本向量计算;所述文本语义向量的多层聚类索引构建包含文本向量二分Kmeans聚类;所述文本语义向量的分布式均衡存储包含文本语义向量多维空间的距离计算和分布式均衡存储;所述多维用户偏好筛选的文本语义搜索包含对大规模文本的多维偏好高效筛选和实时语义精准搜索。本发明减小了计算量和优化了搜索速度。
技术领域
本发明属于大数据文本分析技术领域,涉及自然语言处理,具体是一种分布式的文本近似最近邻语义搜索计算方法
背景技术
随着大数据时代的到来,信息技术飞速发展,科技成果也在短时间内发生了急剧的、爆炸性的增长,每天都有大量的信息在产生。平均每天发表的包含新知识的论文为1.3到1.4万篇;登记的发明创造专利每年超过30万件,平均每天有800-900件专利问世。我们被淹没在科技成果的海洋中,如何快速的找到我们需要的科技成果,促进科技成果转移转化是实施创新驱动发展战略的重要任务,是加强科技与经济紧密结合的关键环节,打造经济发展新引擎具有重要意义。
目前,很多网络文献资源库和技术对接交易平台只能提供基于关键词的传统搜索方案,使用不方便,缺乏语义理解,检索结果不理想,带来不好的用户体验,难以实时快速精准的为用户提供推荐科技成果服务。(尤其是在专利等科技成果转化利用中,快速精准的智能推荐符合用户需求的科技成果是亟需解决的一个关键技术问题。)
发明内容
本发明针对现有技术的不足,提供了一种分布式的文本近似最近邻语义搜索计算方法,该方法搜索结果精准,搜索速度快。
为了达到上述技术效果,本发明的技术方案如下:
1.文本语义向量的构建
收集海量文本数据,文本进行提取词袋,文本分词,对处理后的文本进行word2vec模型训练得到词向量模型wordModel,利用词向量模型计算每一篇文本的文本向量(VD)和需求文本向量。
2.文本语义向量的多层聚类索引构建
2.1文本向量利用二分K-means聚类算法进行n次聚类得到n次聚类结果。
1)为了得到K个簇,将所有文本向量的集合分裂成两个簇;
2)根据SSE值从这些簇中选取一个最大的继续分裂,直到产生K个簇;
其中,ci表示自信坐标,x表示质心为ci的数据。dist表示空间两个向量的欧几里得距离。每次选定最小的SSE后,重新计算每个簇的质心,采用均值法来计算;
第i个簇的质心ci为:
3)使用结果簇的质心作为基本K均值的初始质心;
4)迭代计算最小误差平方和准则,如当迭代次数达到指定次数,或者最小误差平方和函数使这K个簇的总体误差最小;
最小误差平方和准则:xj是一篇文本向量,ui是簇si的平均值;
5)聚类n次;
2.2构建多维用户偏好可筛选文本向量
每一篇文本向量对应着n个聚类编号(C1,C2,C3,......,Cn);
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州电子科技大学,未经杭州电子科技大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810782233.X/2.html,转载请声明来源钻瓜专利网。