[发明专利]确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置在审
申请号: | 201980095477.3 | 申请日: | 2019-04-19 |
公开(公告)号: | CN113728316A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 片冈正弘;尾上聪;加藤翔 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F16/383 | 分类号: | G06F16/383 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 金雪梅 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 方法 生成 维度 压缩 显示 以及 信息处理 装置 | ||
本发明提供一种确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置。信息处理装置确定与检索条件所包含的文本中包含的任意的单词相应的向量。信息处理装置参照存储表示与多个向量分别相应的单词是否包含于多个文本文件中的每个文本文件的存在与否信息的存储部,并基于与多个向量中的与确定出的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定多个文本文件中的包含任意单词的文本文件。
技术领域
本发明涉及确定方法等。
背景技术
在以往的检索技术等中,在对专业书籍等的文本压缩编码的情况下,对文本进行词法分析,并生成对单词和文本上的单词的偏移量建立了对应关系的倒排索引,用于文本检索。例如,若指定检索查询(检索对象的文本),则使用倒排索引,确定与检索查询的单词对应的偏移量,检索包含检索查询的单词的文本。
专利文献1:日本特开2006-119714号公报
专利文献2:日本特开2018-180789号公报
专利文献3:日本特开2006-146355号公报
专利文献4:日本特开2002-230021号公报
非专利文献1:岩崎雅二郎,《在高维向量数据中实现高速的附近检索的NGT的公开》,<https://techblog.yahoo.co.jp/lab/searchlab/ngt-1.0.0/>,2019年3月12日检索。
然而,在上述的现有技术中,在专业书籍等的文本和检索查询的文本中,存在由于单词、句子的粒度的表述波动原因而无法检索的情况。
例如,由于上述的倒排索引对单词和其偏移量建立了对应关系,所以即使意思相同,也难以检索与检索查询的单词不一致的单词。
发明内容
在一个侧面,本发明的目的在于提供一种抑制由与检索查询的文本的表述波动引起的检索精度的降低的确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置。
在第一方案中,计算机执行以下的处理。计算机受理检索条件所包含的文本。计算机确定与受理的文本所包含的任意的单词相应的向量。计算机参照存储部,该存储部中与和多个文本文件中的至少任意一个文本文件所包含的多个单词相应的多个向量分别建立对应地存储表示与多个向量分别相应的单词是否包含于多个文本文件中的每个文本文件的存在与否信息,并基于与多个向量中的与确定出的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定多个文本文件中的包含任意单词的文本文件。
能够抑制由与检索查询的文本的表述波动引起的检索精度的降低。
附图说明
图1是用于对本实施例的信息处理装置的处理进行说明的图(1)。
图2是用于对本实施例的信息处理装置的处理进行说明的图(2)。
图3是表示本实施例的信息处理装置的结构的功能框图。
图4是表示单词向量表的数据结构的一个例子的图。
图5是表示维度压缩表的数据结构的一个例子的图。
图6是表示单词索引的数据结构的一个例子的图。
图7是表示同义词索引的数据结构的一个例子的图。
图8是表示同义句索引的数据结构的一个例子的图。
图9A是用于对基底向量的分散配置进行说明的图。
图9B是用于对维度压缩进行说明的图。
图10是用于说明对倒排索引散列化的处理的一个例子的图。
图11是用于对维度还原进行说明的图。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980095477.3/2.html,转载请声明来源钻瓜专利网。