[发明专利]一种文档与查询词的相关性获取方法和装置有效
申请号: | 201710920342.9 | 申请日: | 2017-09-30 |
公开(公告)号: | CN110020029B | 公开(公告)日: | 2021-09-07 |
发明(设计)人: | 马庆丽 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/93 | 分类号: | G06F16/93 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 赵秀芹;王宝筠 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文档 查询 相关性 获取 方法 装置 | ||
1.一种文档与查询词的相关性获取方法,其特征在于,包括:
获取记载有某一行业数据的文档;
响应于用户输入的查询词,从所述文档中提取多个特征,所述多个特征包括与所述查询词相关的特征和/或文档特征;
对提取出的多个特征分别进行归一化处理,得到多个归一化特征;
从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重;其中,所述模型文件中包括至少一个行业视角词及其分别对应的多个特征的特征权重,所述模型文件中还包括通用词的多个特征的特征权重;所述模型文件中的特征权重通过熵值法计算得到;
将各个归一化特征与其对应的特征权重进行加权求和,得到的加权求和结果用于表征所述文档与查询词的相关性;
所述从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重,具体包括:
从所述模型文件中查找是否含有与所述查询词相匹配的行业视角词;
若从模型文件中查找到与查询词相匹配的行业视角词,从所述模型文件中获取与所述查询词相匹配的行业视角词的多个特征的特征权重;
将所述与所述查询词相匹配的行业视角词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重;
若从模型文件中未查找到与查询词相匹配的行业视角词,从所述模型文件中获取通用词的多个特征的特征权重;
将所述通用词的多个特征的特征权重作为与所述查询词相对应的多个归一化特征的特征权重。
2.根据权利要求1所述的方法,其特征在于,所述模型文件与信源对应,且模型文件与信源为一一对应关系;
所述从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重之前,还包括:
根据所述文档中携带的信源标识确定文档的信源;
所述从预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重,具体包括:
从与所述信源相对应的预先训练好的模型文件中获取与所述查询词相对应的多个归一化特征的特征权重。
3.根据权利要求1-2任一项所述的方法,其特征在于,所述方法还包括:训练模型文件中行业视角词的多个特征的特征权重。
4.根据权利要求3所述的方法,其特征在于,所述训练模型文件中行业视角词的多个特征的特征权重,具体包括:
从记载有某一行业数据的文档库中获取训练数据;
从所述训练数据中提取行业视角词的多个特征,该行业视角词的多个特征包括行业视角词特征和/或文档特征;
对提取出的行业视角词的多个特征分别进行归一化处理,得到行业视角词的多个特征多个归一化特征;
利用熵值法分别计算行业视角词的每个归一化特征对应的特征权重,得到的结果作为模型文件中行业视角词的特征权重。
5.根据权利要求1-2任一项所述的方法,其特征在于,在得到加权求和结果后,还包括:
根据预先设定的相关性等级规范以及加权求和结果确定文档与查询词的相关性等级。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710920342.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种文档创建及访问方法、装置
- 下一篇:一种档案管理方法