[发明专利]商品信息检索系统及方法在审
申请号: | 202010653717.1 | 申请日: | 2020-07-08 |
公开(公告)号: | CN113918804A | 公开(公告)日: | 2022-01-11 |
发明(设计)人: | 谭强;沈雁斌;陆娱艳;顾金荣 | 申请(专利权)人: | 上海会麦信息科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F40/253;G06F40/289;G06F40/30 |
代理公司: | 上海宏京知识产权代理事务所(普通合伙) 31297 | 代理人: | 邓文武 |
地址: | 200126 上海市浦东新区中国*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 商品信息 检索系统 方法 | ||
1.商品信息检索系统,其特征在于,所述系统包括:输入确定单元,配置用于响应用户的输入操作,确认用户输入的搜索商品关键字;语义分析单元,配置用于对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理;检索单元,配置用于根据归一化处理后的关键字在网络中搜索与该搜索商品关键字内容相匹配的结果;内容提取单元,配置用于从该检索单元检索到的所有结果中提取结果的地址及结果记载的文字信息和图片信息;去重处理单元,配置用于获取该内容提取单元提取的该些结果的网址及该些网址对应的文字信息和图片信息,并根据该提取出的文字信息判断该些结果中的内容是否引用了源地址,若确定该结果中的内容引用自一源地址,则该去重处理单元将该引用了该源地址的结果去除,只保留该源地址对应的结果。
2.如权利要求1所述的系统,其特征在于,所述语义分析单元,对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理的方法执行以下步骤:针对输入的关键字进行段落分词;通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式进行存储,实现文档在语义维度下的结构化表示。
3.如权利要求2所述的系统,其特征在于,所述段落分词为中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词;所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
4.如权利要求3所述的系统,其特征在于,所述去重处理单元还配置用于将该些保留的结果中的文字信息和图片信息进行比较,并判断该些保留结果中的文字信息和图片信息的相似度是否超过一预先设定的阈值,所述的相似度以结果中文字信息和图片信息的重复程度来表征;当该些保留的结果中至少两个结果中文字信息和图片信息的相似度超过该阈值时,则显示该些结果中文字内容最多的一个结果或时间最早的一个结果,将其他与该结果内容相似的结果去除;直到该些保留的结果中任何两个结果内容的相似度都没有超过该阈值,则确定该些被保留的结果为最终显示的结果。
5.一种基于权利要求1至4之一所述系统的商品信息检索方法,其特征在于,所述方法执行以下步骤:
步骤1:响应用户的输入操作,确认用户输入的搜索商品关键字;
步骤2:对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理;
步骤3:根据归一化处理后的关键字在网络中搜索与该搜索商品关键字内容相匹配的结果;
步骤4:从该检索单元检索到的所有结果中提取结果的地址及结果记载的文字信息和图片信息;
步骤5:获取该内容提取单元提取的该些结果的网址及该些网址对应的文字信息和图片信息,并根据该提取出的文字信息判断该些结果中的内容是否引用了源地址,若确定该结果中的内容引用自一源地址,则将该引用了该源地址的结果去除,只保留该源地址对应的结果。
6.如权利要求5所述的方法,其特征在于,所述步骤2:对输入的搜索商品关键字进行基于段落分词的语义分析,将关键字进行归一化处理的方法包括:针对输入的关键字进行段落分词;通过本体和语法规则,对分词后的段落内的词或词组进行语义标注,将段落从文本转变为概念组合体,以便进行相应语义计算,抽取语义维度以及维度强度;进行段落-维度结构化关联,将段落在语义空间上的点坐标表示出来,并将其按照结构化形式进行存储,实现文档在语义维度下的结构化表示。
7.如权利要求6所述的方法,其特征在于,所述段落分词为中文分词,包括基于字符串匹配的分词、基于理解的分词和基于统计的分词;所述段落分词使用六字位标注集的基于条件随机场模型的中文分词系统。
8.如权利要求7所述的系统,其特征在于,所述步骤5还包括:将该些保留的结果中的文字信息和图片信息进行比较,并判断该些保留结果中的文字信息和图片信息的相似度是否超过一预先设定的阈值,所述的相似度以结果中文字信息和图片信息的重复程度来表征;当该些保留的结果中至少两个结果中文字信息和图片信息的相似度超过该阈值时,则显示该些结果中文字内容最多的一个结果或时间最早的一个结果,将其他与该结果内容相似的结果去除;直到该些保留的结果中任何两个结果内容的相似度都没有超过该阈值,则确定该些被保留的结果为最终显示的结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海会麦信息科技有限公司,未经上海会麦信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010653717.1/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种抗人CD47的单克隆抗体及其应用
- 下一篇:矩阵运算的方法和加速器