[发明专利]基于人工智能的搜索方法、装置和电子设备有效
申请号: | 201711464202.1 | 申请日: | 2017-12-28 |
公开(公告)号: | CN108052659B | 公开(公告)日: | 2022-03-11 |
发明(设计)人: | 朱勇;宋勋超;李莹;张一麟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F40/289;G06F40/30 |
代理公司: | 北京清亦华知识产权代理事务所(普通合伙) 11201 | 代理人: | 宋合成 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 人工智能 搜索 方法 装置 电子设备 | ||
1.一种基于人工智能的搜索方法,其特征在于,包括:
获取输入的查询语句;
切分所述查询语句,得到多个分词组成的分词序列;
对所述分词序列进行结构化分析,生成文本结构;
基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,所述知识化分析包括对语义结构中的每个语义成分进行语义分析;
根据所述文本结构和所述语义分析结果,确定所述查询语句对应的理解结果;
所述结构化分析包括:计算多组语义基本等价的所述分词序列之间的位置重叠与错位关系,计算重叠的频度和错位的长尾性,得到分词序列共性的序列区间和特异性的序列区间;基于带类型的槽位,替换所述特异性的序列区间生成所述文本结构。
2.如权利要求1所述的方法,其特征在于,对所述分词序列进行结构化分析,生成文本结构,包括:
基于历史查询日志,对所述分词序列进行共现挖掘和同义挖掘,以获取多个扩展查询语句;
基于预设聚类算法,对所述多个扩展查询语句进行聚类;
对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构。
3.如权利要求2所述的方法,其特征在于,在生成所述文本结构之后,还包括:
对所述文本结构进行泛化和等价归一。
4.如权利要求1所述的方法,其特征在于,基于所述文本结构,对所述分词序列进行知识化分析,生成语义分析结果,包括:
对所述分词序列进行需求识别,以生成需求识别结果;
基于知识库,对所述需求识别结果进行概念识别,以生成概念识别结果;
基于所述知识库,对所述概念识别结果进行意图识别,以生成所述语义分析结果。
5.如权利要求2所述的方法,其特征在于,对聚类后的所述多个扩展查询语句进行结构抽取,以生成所述文本结构,包括:
基于所述多个扩展查询语句之间的重叠的频度和错位的长尾性,获取所述多个扩展查询语句之间的共性的序列区间和特异性的序列区间;
基于预设类型的槽位,替换所述多个扩展查询语句之间的特异性的序列区间;
基于所述共性的序列区间和所述预设类型的槽位,生成所述文本结构。
6.如权利要求3所述的方法,其特征在于,对所述文本结构进行泛化和等价归一,包括:
对所述文本结构和候选文本结构填充相同的多组语义成分,以生成所述文本结构对应的第一查询语句和所述候选文本结构对应的第二查询语句;
基于所述第一查询语句进行查询获取第一搜索结果;
基于所述第二查询语句进行查询获取第二搜索结果;
计算所述第一搜索结果和所述第二搜索结果的点击共现分数;
当所述点击共现分数大于预设分数时,确定所述候选文本结构与所述文本结构等价。
7.如权利要求4所述的方法,其特征在于,对所述分词序列进行需求识别,以生成需求识别结果,包括:
提取所述分词序列对应的查询语句特征;
获取与所述查询语句对应的搜索结果的特征;
根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果。
8.如权利要求7所述的方法,其特征在于,所述搜索结果的特征包括题目特征、摘要特征、位置特征、样式特征中的至少一种。
9.如权利要求7所述的方法,其特征在于,在根据所述查询语句特征和所述搜索结果的特征生成所述需求识别结果之后,还包括:
对所述需求识别结果进行需求消歧。
10.如权利要求9所述的方法,其特征在于,对所述需求识别结果进行需求消歧,包括:
获取与所述查询语句对应的搜索结果的语义片段;
利用预设模型获得所述语义片段中的实体标签;
基于所述实体标签对所述需求识别结果进行需求消歧。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711464202.1/1.html,转载请声明来源钻瓜专利网。