[发明专利]标记搜索语义角色的结构化查询信息表达方法有效

专利信息
申请号: 202011640600.6 申请日: 2020-12-31
公开(公告)号: CN112685440B 公开(公告)日: 2022-03-22
发明(设计)人: 王程 申请(专利权)人: 上海欣兆阳信息科技有限公司
主分类号: G06F16/242 分类号: G06F16/242;G06F40/30;G06N20/00
代理公司: 合肥市科融知识产权代理事务所(普通合伙) 34126 代理人: 刘冉
地址: 200030 上海*** 国省代码: 上海;31
权利要求书: 查看更多 说明书: 查看更多
摘要:
搜索关键词: 标记 搜索 语义 角色 结构 查询 信息 表达 方法
【说明书】:

发明的标记搜索语义角色的结构化查询信息表达方法,将用户输入的搜索查询当作一个词序列,对该序列建立模型分析来解析用户行为,将计算科学和认知科学、心理学融合,通过对输入序列建立模型来分析用户行为背后真正的搜索意图;提出了一种将用户输入的自然语言文本表示成结构化查询信息的方法,是结构化查询信息提取和结构预测领域的成功实践,可以在自然语言处理和数据挖掘等其它领域推广;基于半监督学习方法,并将机器学习和人工经验结合在一起,减少监督学习方法需要人工标记大量样本的成本,对结果集合给出合理的解释;帮助搜索引擎解析用户的搜索意图,提升用户的搜索体验和商品的转化率。

技术领域

本发明涉及一种结构化查询信息表达方法,特别涉及一种标记搜索语义角色的结构化查询信息表达方法,属于结构化信息检索技术领域。

背景技术

信息检索是对人们查询信息的过程进行分析建模,并设计计算机算法自动执行该查询,以便解析用户所需求的信息。信息检索的关键性问题之一就是相关性,相关性指搜索引擎反馈的搜索结果和用户的真正搜索需求是否匹配,即能否满足用户的搜索需求,相关性在电商等领域还直接关系商品的转化率,这种相关性的决策通常需要更深层次的解析用户的搜索意图,因此在设计比较文本以及对文本进行排序的算法时,需要综合考虑这些因素。

如果单纯如Unix中的文本查找或数据库系统工具,对查询和文本进行简单的全文字符串比较,寻求精确的匹配,返回的结果通常无法满足用户的需求,一个明显的原因是:同一个概念能用不同的词语表述出来,而同一个词语在不同的语言环境中也能表达不同的概念,这在信息检索中称为词表不匹配问题;另一方面用户输入的搜索查询词有一定的侧重点,隐性的反映用户的需求和个人偏好。在电商垂直搜索引擎中,相关性的度量极其重要,其直接关系用户的搜索满意度和商品的转化率。现有技术先后提出了多种检索模型,一个检索模型是对用户输入的搜索查询与数据库中文本匹配过程的形式化的表示,它是排序算法的基础,搜索引擎利用检索模型检索数据库中存储的数据并返回信息的有序列表,一个好的检索模型应该能够找到那些与提问者相关的文本,并按照相关性排序,将最能满足用户需求的信息排在前面,在信息检索中,大多数检索模型往往只对文本进行简单的字符串统计而不关心语言内在的结构,这种检索模型会使搜索引擎反馈的结果相关性上存在较大偏差,这种偏差在电商等垂直搜索引擎中表现更明显。

现有技术的检索模型,如空间向量模型、BM25模型、查询似然模型等,大都依赖于词袋,是文本的一种简单表示方式,在这些检索模型中,文本被作为一组无序词语的集合,文本整体的句法或上下文关系没有被体现出来,然而从语言学角度来看,一篇文本遵循特定的句法和语法结构并且每个单词都和特定的语境(上下文)紧密相关,因而词袋的表示能力非常有限。当前目标是打破词袋模型的束缚,分析文本的内部结构并建立一个能处理结构化和非结构数据的常规检索模型。探究文本结构是网络搜索的关键部分,结构化解析方法就是对自然语言文本进行结构化表示,从而更能准确的识别用户的搜索意图。

结构化搜索的基础是从用户输入的搜索查询中提取结构化信息,并将其与后台文本有效匹配,在电商等垂直搜索引擎中,其后台文本(商品)更多的以结构化或半结构化的方式储存,因此结构化搜索的应用有先天优势,对用户输入的搜索查询进行结构化解析进而深层次的解析用户的查询意图有巨大的应用价值。

综合来看,现有技术的查询信息表达依然存在诸多不足,现有技术的难点和本发明解决的问题主要集中在以下方面:

第一,现有技术的文本查找或数据库系统工具,对查询和文本进行简单的全文字符串比较,返回的结果通常无法满足用户的需求,存在信息检索词表不匹配问题,另外用户输入的搜索查询词有侧重点,隐性的反映用户的需求和个人偏好大多数检索模型往往只对文本进行简单的字符串统计而不关心语言内在的结构,这种检索模型会使搜索引擎反馈的结果相关性上存在较大偏差,这种偏差在电商等垂直搜索引擎中表现更明显,;

下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于上海欣兆阳信息科技有限公司,未经上海欣兆阳信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/pat/books/202011640600.6/2.html,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top