[发明专利]用于多语言文档过滤的系统和方法在审
申请号: | 201680054252.X | 申请日: | 2016-07-25 |
公开(公告)号: | CN108027813A | 公开(公告)日: | 2018-05-11 |
发明(设计)人: | E·狄克逊;M·迪兹杜赫;C·奥林斯基 | 申请(专利权)人: | 迈克菲有限责任公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 吕俊刚;杨薇 |
地址: | 美国加利*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 语言 文档 过滤 系统 方法 | ||
公开了至少部分地基于经受过滤和/或搜索的文档中的词语的语义表示来提供过滤和/或搜索的系统、设备、计算机可读介质和方法。此外,可将用于进行过滤和/或搜索的关键词(诸如,禁忌词和/或搜索条目)在语义上与文档中的词语的语义表示进行比较。可使用诸如基本语言语义向量空间的公共语义向量空间来比较关键词语义向量与文档的词语的语义向量,而不管书写文档的本地语言或提供关键词的语言如何。
相关申请的交叉引用
本申请要求2015年9月18日提交的美国专利申请No.14/858,413的权益,该专利申请的公开通过引用并入本文,如同全文阐述一样。
技术领域
本公开总体上涉及用于语言翻译的系统和方法,并且更具体地,涉及多路径语言翻译。
背景技术
在互联网时代,出于诸如互联网搜索和/或恶意电子邮件或文档阻止的目的,文档的过滤已愈发重要。搜索机制可涉及语法搜索,在语法搜索中,文档中的词语可在语法上与一组关键词(例如,禁忌词或搜索词)进行比较。在处理多语言文档时,出于过滤的目的,可使用来自各种不同语言的搜索语法。跨多种语言的这种类型的语法搜索可能是一项代价高昂、速度慢和/或资源密集型的活动。
附图说明
现在,将参照附图,附图不一定按比例绘制,并且其中:
图1描绘了根据本公开的示例实施方式的具有提供过滤和/或搜索服务的过滤服务器的示例环境的简化示意图。
图2描绘了例示出根据本公开的示例实施方式的图1的示例过滤服务器的简化框图。
图3描绘了例示出根据本公开的示例实施方式的用于确定文档是否是搜索命中或者要被过滤的示例方法的流程图。
图4描绘了例示出根据本公开的示例实施方式的针对待过滤文档识别距离参数表并且将距离参数表应用于过滤模型的示意图。
图5描绘了例示出根据本公开的示例实施方式的用于训练和部署过滤模型的示例方法的流程图。
图6描绘了例示出根据本公开的示例实施方式的通过语义向量比较生成关键词计数来确定文档是否是搜索命中或者要被过滤的示例方法的流程图。
图7描绘了例示出根据本公开的示例实施方式的用于至少部分地基于与待排名(rank)文档关联的一个或更多个距离参数来将搜索结果进行排名的示例方法的流程图。
具体实施方式
下文中,参照附图更充分地描述本公开的实施方式,在附图中示出了本公开的示例实施方式。然而,本公开可按许多不同形式来实施并且不应该被理解为限于本文中阐述的示例实施方式;相反,提供这些实施方式,使得本公开将是彻底和完全的,并且将把本公开的范围充分传达给本领域的技术人员。类似的数字始终指的是类似的但不一定是相同或相同的元件。
本公开的实施方式可提供用于以多语言方式搜索和/或过滤词语的系统、设备、计算机可读介质和方法。在示例实施方式中,可出于搜索或过滤文档的目的而使用语义机制。这些机制可涉及出于搜索或过滤文档中的词语的语义表示(例如,网站、文本文档、音频文档、电子邮件(email))等)的目的的词语的语义向量表示。关键词、禁忌词或搜索条目(下文中统称为关键词)可用作基于其执行搜索或过滤的条目。例如,出于过滤的目的,可提供诸如与赌博、色情(例如,色情文学(porn))、暴力材料、性材料、成人内容、其组合等相关的词语的禁忌词的列表。例如,与赌博相关的词语可包括“赌博”、“赌场”、“扑克”、“黑杰克”、“轮盘赌”或类似词语。这些禁忌词可用作过滤的标准。在示例实施方式中,可确定禁忌词的语义向量。这可使用查找表、诸如Word2Vec的服务、执行数学运算以确定禁忌词的语义向量表示等来确定。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于迈克菲有限责任公司,未经迈克菲有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201680054252.X/2.html,转载请声明来源钻瓜专利网。