[发明专利]确定方法、生成方法、维度压缩方法、显示方法以及信息处理装置在审
申请号: | 201980095477.3 | 申请日: | 2019-04-19 |
公开(公告)号: | CN113728316A | 公开(公告)日: | 2021-11-30 |
发明(设计)人: | 片冈正弘;尾上聪;加藤翔 | 申请(专利权)人: | 富士通株式会社 |
主分类号: | G06F16/383 | 分类号: | G06F16/383 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 金雪梅 |
地址: | 日本神*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 确定 方法 生成 维度 压缩 显示 以及 信息处理 装置 | ||
1.一种确定方法,其特征在于,
由计算机执行如下处理:
受理检索条件所包含的文本;
确定与受理的上述文本所包含的任意的单词相应的向量;以及
参照存储部,该存储部中与和多个文本文件中的至少任意一个文本文件所包含的多个单词相应的多个向量分别对应地存储表示与上述多个向量分别相应的单词是否包含于上述多个文本文件中的每个文本文件的存在与否信息,
并基于与上述多个向量中的与确定出的上述向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定上述多个文本文件中的包含上述任意的单词的文本文件。
2.根据权利要求1所述的确定方法,其特征在于,
确定上述向量的处理将上述文本所包含的单词的各维度的值累计,并基于累计结果,从上述文本所包含的任意的单词确定特征单词的向量,
确定上述文本文件的处理参照上述存储部,基于与上述多个向量中的与上述特征单词的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定上述多个文本文件中的包含上述任意的单词的文本文件。
3.根据权利要求1所述的确定方法,其特征在于,
确定上述向量的处理基于将上述检索条件所包含的多个句子的各维度的值累计所得的累计结果,从上述检索条件所包含的任意句子确定特征句子的向量,
确定上述文本文件的处理参照存储表示与上述多个向量分别相应的句子是否包含于上述多个文本文件中的每个文本文件的存在与否信息的存储部,基于与上述多个向量中的与确定出的上述特征句子的向量的相似度为基准以上的向量建立有对应关系的存在与否信息,来确定上述多个文本文件中的包含上述检索条件所包含的任意句子的文本文件。
4.一种生成方法,其特征在于,
由计算机执行如下处理:
受理文本文件;
确定与受理的上述文本文件所包含的任意单词相应的第一向量;
参照存储与多个单词相应的多个向量的存储部,确定上述多个向量中的与上述第一向量的相似度为基准以上的第二向量;以及
生成将表示上述文本文件包含上述任意单词的信息与上述第二向量建立对应关系的信息。
5.根据权利要求4所述的生成方法,其特征在于,
按每个不同的分类等级执行基于与分类等级相应的相似度的多个基准值,将上述文本文件所包含的多个单词中的属于向量彼此的相似度为基准值以上的单词组的各单词与同一向量建立对应关系的处理,
进一步执行按每个不同的分类等级生成对属于上述文本文件所包含的某个单词组的单词的偏移量和属于上述某个单词组的单词的向量建立对应关系的倒排索引的处理。
6.根据权利要求5所述的生成方法,其特征在于,
进一步执行如下处理:
受理检索条件所包含的文本;
确定与受理的上述文本所包含的任意的单词相应的向量;以及
基于确定出的上述向量和每个上述分类等级的任意的倒排索引,确定包含与上述向量对应的单词的文本文件。
7.根据权利要求6所述的生成方法,其特征在于,
确定上述文本文件的处理根据基于每个上述分类等级的倒排索引检索出的文本文件的数量,来切换上述倒排索引。
8.一种维度压缩方法,其特征在于,
由计算机执行如下处理:
基于与字符串对应的多个维度的向量,将按每个维度将上述向量成分分解而成的多个基底向量分散配置成圆状;
通过对上述多个基底向量中的第一基底向量,累计对除了上述第一基底向量以外的其它第二基底向量进行正交变换所得的值,来计算上述第一基底向量的值;以及
将上述向量所包含的多个维度压缩到与上述第一基底向量对应的维度,并将压缩后的维度的值设定为通过上述计算处理计算出的第一基底向量的值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于富士通株式会社,未经富士通株式会社许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201980095477.3/1.html,转载请声明来源钻瓜专利网。