[发明专利]自然语言文本文件中的搜索项提取和优化在审
申请号: | 201880064869.9 | 申请日: | 2018-10-04 |
公开(公告)号: | CN111201523A | 公开(公告)日: | 2020-05-26 |
发明(设计)人: | C·鲍尔斯;赖宗翰;迈克尔·安德森 | 申请(专利权)人: | 链睿有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06Q30/06 |
代理公司: | 上海专利商标事务所有限公司 31100 | 代理人: | 钱盛赟 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自然语言 文本文件 中的 搜索 提取 优化 | ||
一种用于从自然语言文档中提取对相应数据元素的搜索项的系统和方法,标识上下文内有意义的词;标识并构造关键词;阐述关键词以优化搜索结果;以及从对应数据库中捕捉最相关的数据元素。在此过程中构造预定人口统计特性和捕捉行为特性描述符的短(一个或两个词)搜索短语。完成过程的结果产生命名人口统计和行为特性的参数集,以及针对包括大量数据元素的数据库内的搜索进行优化的结构。
技术领域
本发明的领域是分析自然语言文本文件以提取和构造有意义的搜索项。
背景技术
超大型数据库(诸如可能用于营销目的)正在以越来越快的速度聚合。作为结果,这些数据库正渐进地变得越来越复杂。此类数据库可以包含数千种数据类别(即,数据段),每个类别涉及数据库中所跟踪的数亿个人、家庭、或其他实体。这些数据库实际上正变得如此大且复杂,以至于它们正扩张到人类搜索和查全能力的能力范围之外而无法有效地利用它们。这是因为这样的数据库的人类策展人(curator)固有地局限于他或她自己的一组解释性启发式方法,然而无论他们是如何凭直觉的,该组解释性启发式方法都不可能如此全面以至于将此类复杂数据库的全部丰富性都纳入考虑。另外,人类策展人能够制定适当搜索的速度较慢,再加上要完成的搜索数迅速增加以及在不断发展的动态营销环境中使结果有意义所必需的迅速周转,这意味着人工搜索坦白来说已不再实用,因为它们无法在结果仍有意义的时间帧内完成。
诸如上面所描述的营销数据库由数据购买者使用,数据购买者出于将营销消息引导到特定的目标受众的目的而试图从营销数据库提供商购买数据。例如,如果数据购买者是瘦身服务的提供商,则数据购买者可能有兴趣标识寻求瘦身的受众人群。数据购买者因而通常对探索与特定营销活动受众准则相关的细分受众群产品感兴趣。这些准则通常以自然语言格式列在数据购买者所准备的提案请求(RFP)文档中。RFP将包括描述特定受众针对数据购买者的营销信息所期望的行为(包括购买模式或“倾向”)的项,以及诸如期望受众的年龄、性别、收入和其他人口统计要求之类的概览规范。
由于数据购买者正在用RFP或其他陈述期望受众特征的自然语言文档工作,因此数据购买者需要以某种方式将其自己的对期望目标受众的自然语言描述转换成搜索项。现今存在两种备选方案。首先,数据购买者可以代为将RFP变换为SQL查询以搜索期望的营销数据库。另一种备选方案是让数据购买者把请求发送给人类策展人,于是他们的任务便是基于数据购买者的描述来查找有意义的数据段。无论哪种方式,结果的准确度都取决于人类查全大量不断演化的数据段并为该特定RFP标识最佳数据段的能力。不可避免的人为错误意味着,给定营销数据库中可用于定位营销信息的可用数据,数据购买者正在收到次优的受众结果。另外,人为要素极大地增加了处理的成本(尤其是当单独的人类策展人被雇佣时)。最后,这也意味着整个过程的周转时间是高度可变的(通常需要数小时或数天),这取决于人类策展人对数据库的熟悉度、数据是否被存储在一个或多个数据库中、以及是否存在与要返回的数据相关联的特殊权限。如上所述,这种周转时间现在已使人工策划的搜索变得不切实际,因为在当今快速发展的基于互联网的营销环境中,随着数据正不断演化且正被更新和扩展,必须快速构造目标消息以便有意义。于是期望的是将标识目标受众的RFP或其他自然语言文档或文本转换成标识要在营销数据库中被搜索的最佳数据元素的请求的一种更快且更准确的方法,其中该改进的方法导致来自营销数据库的最佳结果并且还提供足够快的周转时间,以使得结果在商业上有意义并且可付诸实践。
本背景部分中提到的参考不被承认是相对于本发明的现有技术。
发明内容
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于链睿有限公司,未经链睿有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201880064869.9/2.html,转载请声明来源钻瓜专利网。
- 上一篇:激光加工方法以及装置
- 下一篇:大型结构化数据集的统计指纹识别