[发明专利]基于人工智能的搜索方法、装置和电子设备有效
申请号: | 201711464202.1 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108052659B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 朱勇;宋勋超;李莹;张一麟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 搜索 方法 装置 电子设备 | ||
本发明公开了一种基于人工智能的搜索方法、装置和电子设备,其中,基于人工智能的搜索方法包括:获取输入的查询语句;切分查询语句,得到多个分词组成的分词序列;对分词序列进行结构化分析,生成文本结构;基于文本结构,对分词序列进行知识化分析,生成语义分析结果;根据文本结构和语义分析结果,确定查询语句对应的理解结果。本发明实施例的基于人工智能的搜索方法、装置和电子设备,通过对查询语句进行结构化分析和知识化分析,得到文本结构和语义分析结果,从而确定查询语句对应的理解结果,降低搜索结果的误召回,提高准确率,满足用户需求。
技术领域
本发明涉及信息处理技术领域,尤其涉及一种基于人工智能的搜索方法、装置和电子设备。
背景技术
传统的搜索引擎,对query(查询信息)的理解,主要还是将query切分为多个关键词来进行解析。具体地,可先对query进行分词,生成由多个关键词(keyword)组成的序列,并为每个关键词分配一定的权重(weight)。然后,对待检索内容(比如互联网网页)同样做分词,生成分词(term)序列,并分配一定的权重。计算两个序列中分词的重合程度(相似度),同时配合权重计算得分,得到一个纯文本相关度的排序结果。最后,基于用户对原始排序结果不断地点击行为的记录,动态调整排序结果,从而得到用户更愿意点击或停留的搜索结果。
但是,上述方法并没有对query进行更深层次地理解,依靠比较扁平化的关键词序列来召回排序结果,依靠用户的历史行为来优化排序结果,准确率并不高,无法满足用户的需求。
发明内容
本发明提供一种基于人工智能的搜索方法、装置和电子设备,以解决上述技术问题中的至少一个。
本发明实施例提供一种基于人工智能的搜索方法,包括:获取输入的查询语句;
切分所述查询语句,得到多个分词组成的分词序列;
对所述分词序列进行结构化分析,生成文本结构;
基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果;
根据所述文本结构和所述语义分析结果,确定所述查询语句对应的理解结果。
可选的,对所述分词序列进行结构化分析,生成文本结构,包括:
基于历史查询日志,对所述分词序列进行共现挖掘和同义挖掘,以获取多个扩展查询语句;
基于预设聚类算法,对所述多个扩展查询语句进行聚类;
对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构。
可选的,在生成所述文本结构之后,还包括:
对所述文本结构进行泛化和等价归一。
可选的,基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,包括:
对所述分词序列进行需求识别,以生成需求识别结果;
基于知识库,对所述需求识别结果进行概念识别,以生成概念识别结果;
基于所述知识库,对所述概念识别结果进行意图识别,以生成所述语义分析结果。
可选的,对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构,包括:
基于所述多个扩展查询语句之间的重叠的频度和错位的长尾性,获取所述多个扩展查询语句之间的共性的序列区间和特异性的序列区间;
基于预设类型的槽位,替换所述多个扩展查询语句之间的特异性的序列区间;
基于所述共性的序列区间和所述预设类型的槽位,生成所述文本结构。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711464202.1/2.html,转载请声明来源钻瓜专利网。