[发明专利]一种基于知识图谱的包装行业数据搜索方法及设备在审
申请号: | 201810211759.2 | 申请日: | 2018-03-15 |
公开(公告)号: | CN108446367A | 公开(公告)日: | 2018-08-24 |
发明(设计)人: | 李长云;吴岳忠;丁军;朱俊杰 | 申请(专利权)人: | 湖南工业大学;上海海乂知信息科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 上海领洋专利代理事务所(普通合伙) 31292 | 代理人: | 罗晓鹏 |
地址: | 412007 *** | 国省代码: | 湖南;43 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种基于知识图谱的包装行业数据搜索方法及设备,本发明的包装行业垂直领域搜索引擎可以实现包装行业领域最佳的检索效率及效果,能够对自然语言查询进行深入的理解,并从语义层面解析用户查询意图,能够利用海量的结构化知识库,针对用户查询提供准确的答案,另外可以自由灵活的扩充同义词词库。 | ||
搜索关键词: | 包装行业 数据搜索 用户查询 图谱 知识库 领域搜索引擎 自然语言查询 同义词词库 检索效率 语义层面 结构化 灵活的 解析 垂直 答案 自由 | ||
【主权项】:
1.一种基于知识图谱的包装行业数据搜索方法,其特征在于,包括:将包装行业知识图谱对应的包装行业元数据库中的数据导入包装行业搜索平台,建立对应数据索引库,所述数据索引库是一套独立的数据结构,内容与包装行业元数据库中的数据对应一致,所述数据索引库采用ETL技术同步包装行业元数据库中的数据,并经过字段映射、分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中,其中,所述数据索引库构建在ElasticSearch集群基础上,采用分布式加热备方式进行部署,所述当数据加入到数据索引库的时候,数据索引库的分布式服务将数据随机路由到一个索引库节点中创建索引,并同时将数据同步到该节点对应的热备节点中;其中,所述分词策略选择、分词和语义处理、索引持久化之后写到数据索引库中包括:将数据索引库中每个包装商品的数据结构定义成一个文档,文档由多个字段组成,根据字段的搜索、统计需求,为每一个字段选择不同的分词算法,其中,对于提供全文检索功能的字段,采用基于所述包装行业知识图谱改造后的IKAnalyzer的智能中文分词算法及去重标记器进行分词;采用所选择的分词算法对文档的各个字段进行分词之后,文档即转变成词向量,然后对向量空间中的词进行语义处理,包括同义词扩充、上位下位词扩充;按照包装数据维度,对分词和语义处理后得到的词进行合并,得到词对应文档ID的倒排链表,将持久化之后的倒排链表写到数据索引库中,所述倒排链表包含:包装商品的数据结构、词的数量、词在文档中的位置信息、词在文档中的词频信息、词关联的文档数量和文档总数量;对数据索引库中的字段的权重进行按照加权规则进行调整,所述加权的规则包括:利用意图识别的结果加权、利用同义词进行加权、利用搜索词的长度、位置信息进行加权利用用户搜索日志的反馈信息进行加权;获取搜索词,对所述搜索词进行分词和语义处理,根据所述数据索引库中倒排链表和字段的权重,获取经过分词和语义处理后的搜索词在包装行业知识图谱对应的搜索结果位置;根据所述搜索结果位置,从所述包装行业知识图谱中获取经过分词和语义处理后的搜索词对应的搜索结果。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于湖南工业大学;上海海乂知信息科技有限公司,未经湖南工业大学;上海海乂知信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201810211759.2/,转载请声明来源钻瓜专利网。