[发明专利]商品信息检索系统及方法在审
申请号: | 202010653717.1 | 申请日: | 2020-07-08 |
公开(公告)号: | CN113918804A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 谭强;沈雁斌;陆娱艳;顾金荣 | 申请(专利权)人: | 上海会麦信息科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 邓文武 |
地址: | 200126 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品信息 检索系统 方法 | ||
本发明公开了商品信息检索系统及方法,涉及计算机技术领域,所述系统包括:输入确定单元,配置用于响应用户的输入操作,确认用户输入的搜索商品关键字;语义分析单元,配置用于对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理;检索单元,配置用于根据归一化处理后的关键字在网络中搜索与该搜索商品关键字内容相匹配的结果;内容提取单元,配置用于从该检索单元检索到的所有结果中提取结果的地址及结果记载的文字信息和图片信息。其针对输入的关键字进行语义分析,实现了不同语言表达的检索归一化,提升了检索效率和准确率。
技术领域
本发明涉及计算机技术领域,特别是涉及商品信息检索系统及方法。
背景技术
信息检索(InformationRetrieval)是用户进行信息查询和获取的主要方式,是查找信息的方法和手段。狭义的信息检索仅指信息查询(InformationSearch)。即用户根据需要,采用一定的方法,借助检索工具,从信息集合中找出所需要信息的查找过程。广义的信息检索是信息按一定的方式进行加工、整理、组织并存储起来,再根据信息用户特定的需要将相关信息准确的查找出来的过程。又称信息的存储于检索。一般情况下,信息检索指的就是广义的信息检索。
现有的商品检索系统,大都只能通过用户输入的内容直接进行检索,缺乏针对输入内容的语义分析,导致检索结果不准确,检索效率低。
发明内容
鉴于此,本发明的目的是提供商品信息检索系统及方法,其针对输入的关键字进行语义分析,实现了不同语言表达的检索归一化,提升了检索效率和准确率。
为了实现上述目的,本发明采用如下技术方案:
商品信息检索系统,所述系统包括:输入确定单元,配置用于响应用户的输入操作,确认用户输入的搜索商品关键字;语义分析单元,配置用于对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理;检索单元,配置用于根据归一化处理后的关键字在网络中搜索与该搜索商品关键字内容相匹配的结果;内容提取单元,配置用于从该检索单元检索到的所有结果中提取结果的地址及结果记载的文字信息和图片信息;去重处理单元,配置用于获取该内容提取单元提取的该些结果的网址及该些网址对应的文字信息和图片信息,并根据该提取出的文字信息判断该些结果中的内容是否引用了源地址,若确定该结果中的内容引用自一源地址,则该去重处理单元将该引用了该源地址的结果去除,只保留该源地址对应的结果。
进一步的,所述语义分析单元,对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理的方法执行以下步骤:针对输入的关键字进行段落分词;通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式进行存储,实现文档在语义维度下的结构化表示。
进一步的,所述段落分词为中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词;所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
进一步的,所述去重处理单元还配置用于将该些保留的结果中的文字信息和图片信息进行比较,并判断该些保留结果中的文字信息和图片信息的相似度是否超过一预先设定的阈值,所述的相似度以结果中文字信息和图片信息的重复程度来表征;当该些保留的结果中至少两个结果中文字信息和图片信息的相似度超过该阈值时,则显示该些结果中文字内容最多的一个结果或时间最早的一个结果,将其他与该结果内容相似的结果去除;直到该些保留的结果中任何两个结果内容的相似度都没有超过该阈值,则确定该些被保留的结果为最终显示的结果。
一种商品信息检索方法,所述方法执行以下步骤:
步骤1:响应用户的输入操作,确认用户输入的搜索商品关键字;
步骤2:对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海会麦信息科技有限公司,未经上海会麦信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010653717.1/2.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗人CD47的单克隆抗体及其应用
- 下一篇:矩阵运算的方法和加速器