[发明专利]自然语言文本文件中的搜索项提取和优化在审
申请号: | 201880064869.9 | 申请日: | 2018-10-04 |
公开(公告)号: | CN111201523A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | C·鲍尔斯;赖宗翰;迈克尔·安德森 | 申请(专利权)人: | 链睿有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06Q30/06 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 钱盛赟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 文本文件 中的 搜索 提取 优化 | ||
1.一种搜索项提取和优化方法,包括以下步骤:
a.在服务实例服务器处接收包括自然语言请求的请求文档;
b.在关键词提取引擎处应用多种机器学习方法中的一种或多种来从所述请求文档中提取关键短语搜索项,以创建关键短语搜索项列表;
c.在关键词分析/处理引擎处标识所述关键词搜索项列表中的任何重复短语,并将所述重复短语分别添加到所述关键短语搜索项列表以作为最高重要性关键短语;
d.在所述关键词提取引擎处从所述请求文档中提取关键搜索特征集,以产生关键搜索特征列表;
e.在所述关键词分析/处理引擎处从所述关键短语搜索项列表中移除包含关键特征的关键短语搜索项,以产生结构化的关键短语搜索项列表;以及
f.在所述服务实例服务器处使用所述关键搜索特征列表和结构化的关键短语搜索项列表来搜索数据库,以标识匹配的元素。
2.根据权利要求1所述的方法,其特征在于,在从所述请求文档中提取关键短语搜索项的步骤之前进一步包括移除停止词的步骤。
3.根据权利要求2所述的方法,其特征在于,将所述重复短语添加到所述关键短语搜索项列表以作为最高重要性关键短语的步骤包括:将所述重复短语添加在所述关键短语搜索项列表的顶部的步骤。
4.根据权利要求2所述的方法,其特征在于,将所述重复短语添加到所述关键短语搜索项列表以作为最高重要性关键短语的步骤包括:在所述关键短语搜索项列表中使所述重复短语的排名比所提取的关键短语搜索项高的步骤。
5.根据权利要求2所述的方法,其特征在于,所述关键搜索特征集包括人口统计标注、地理位置识别、或实体识别特征中的一者或多者。
6.一种存储指令的计算机可读介质,当所述指令由计算机执行时,致使所述计算机:
a.接收包括自然语言请求的请求文档;
b.应用多种机器学习方法中的一种或多种来从所述请求文档中提取关键短语搜索项,以创建关键短语搜索项列表;
c.标识所述关键词搜索项列表中的任何重复短语,并将所述重复短语分别添加到所述关键短语搜索项列表以作为最高重要性关键短语;
d.从所述请求文档中提取关键搜索特征集,以产生关键搜索特征列表;
e.从所述关键短语搜索项列表中移除包含关键特征的关键短语搜索项,以产生结构化的关键短语搜索项列表;以及
f.使用所述关键搜索特征列表和结构化的关键短语搜索项列表来搜索数据库,以标识匹配的元素。
7.根据权利要求6所述的计算机可读介质,其特征在于,进一步包括在由计算机执行时致使所述计算机执行以下操作的所存储的指令:在从所述请求文档中提取关键短语搜索项的步骤之前移除停止词。
8.根据权利要求7所述的计算机可读介质,其特征在于,用于将所述重复短语添加到所述关键短语搜索项列表以作为最高重要性关键短语的指令包括:用于将所述重复短语添加在所述关键短语搜索项列表的顶部的指令。
9.根据权利要求7所述的计算机可读介质,其特征在于,用于将所述重复短语添加到所述关键短语搜索项列表以作为最高重要性关键短语的指令包括:用于在所述关键短语搜索项列表中使所述重复短语的排名比所提取的关键短语搜索项高的指令。
10.根据权利要求7所述的计算机可读介质,其特征在于,所述关键搜索特征集包括人口统计标注、地理位置识别、或实体识别特征中的一者或多者。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链睿有限公司,未经链睿有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880064869.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:激光加工方法以及装置
- 下一篇:大型结构化数据集的统计指纹识别