[发明专利]语言无关的概率内容匹配有效
申请号: | 201380008426.5 | 申请日: | 2013-02-01 |
公开(公告)号: | CN104094250B | 公开(公告)日: | 2017-10-10 |
发明(设计)人: | M·甘地;C·拉曼纳;V·桑卡拉纳拉亚南;R·庞特斯菲约 | 申请(专利权)人: | 微软技术许可有限责任公司 |
主分类号: | G06F17/20 | 分类号: | G06F17/20;G06F17/21 |
代理公司: | 永新专利商标代理有限公司72002 | 代理人: | 王英 |
地址: | 美国华*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 语言 无关 概率 内容 匹配 | ||
1.一种用于处理内容的计算机实现的方法,包括:
从内容源系统接收电子邮件消息或文档,所述电子邮件消息或文档包括文本内容;
通过位于内容确定系统中的内容确定组件,从规则存储中访问定义被用于将内容标识为敏感内容的模式的一组规则,每一规则具有可被分别匹配到以分割语言书写的文本内容和以非分割语言书写的文本内容的分割和非分割模式;
通过所述内容确定组件,针对每一规则中的所述模式来匹配所述电子邮件消息或文档的至少一个文本内容部分,而无论所述至少一个文本内容部分是以分割语言还是以非分割语言书写,以确定所述至少一个文本内容部分是否是所述敏感内容;
通过所述内容确定组件,基于所述至少一个文本内容部分匹配分割模式还是非分割模式,生成与关于所述至少一个文本内容部分是否是所述敏感内容的判断相对应的置信分数;
通过内容处理系统,基于所述关于所述至少一个文本内容部分是否是所述敏感内容的判断以及所述相应的置信分数,向所述至少一个文本内容部分应用数据传播政策,其中应用所述数据传播政策包括下列项中的至少一个:
显示指示所述至少一个文本内容部分包含敏感材料并且所述电子邮件消息或文档将被阻塞发送到潜在接收方的消息;以及
显示指示所述至少一个文本内容部分包含敏感材料并且指示用户如何基于所述数据传播政策来进行处理的消息。
2.如权利要求1所述的计算机实现的方法,其特征在于,生成置信分数包括:
如果所述至少一个文本内容部分匹配分割模式,则生成较高的置信分数,而如果所述至少一个文本内容部分匹配非分割模式,则生成较低的置信分数。
3.如权利要求1所述的计算机实现的方法,其特征在于,向所述至少一个文本内容部分应用数据传播政策包括:
如果所述至少一个文本内容部分是具有充分高的相应置信分数的所述敏感内容,根据第一组处理规则来处理所述至少一个文本内容部分;以及
否则,根据第二组处理规则处理所述至少一个文本内容部分。
4.如权利要求1所述的计算机实现的方法,其特征在于,匹配包括:
针对每一规则中的所述非分割模式和所述分割模式两者来匹配所述至少一个文本内容部分;
其中每一模式包括主匹配模式和确证匹配部分,且其中匹配包括:
首先针对给定模式的所述主匹配部分匹配所述至少一个文本内容部分;
如果所述至少一个文本内容部分匹配所述给定模式的所述主匹配部分,则针对所述确证匹配部分来匹配所述至少一个文本内容部分;以及
如果所述至少一个文本内容部分匹配所述给定模式的所述确证匹配部分,则向所述匹配分配第一置信分数。
5.如权利要求4所述的计算机实现的方法,其特征在于,所述给定模式的所述确证匹配部分具有多个确证模式,且其中针对所述确证匹配部分匹配所述至少一个文本内容部分包括:
针对所述多个确证匹配模式中的每一个确证匹配模式匹配所述至少一个文本内容部分;以及
如果所述至少一个文本内容部分匹配多于一个确证匹配模式,则增加所述置信分数。
6.如权利要求1所述的计算机实现的方法,其特征在于,每一规则标识不同种类的信息,当所述信息被包括在所述至少一个文本内容部分中时,致使所述至少一个文本内容部分为敏感内容。
7.如权利要求6所述的计算机实现的方法,其特征在于,匹配包括:
针对标识信用卡信息的规则中的模式匹配所述至少一个文本内容部分;
针对标识社会保障号码信息的规则中的模式匹配所述至少一个文本内容部分;以及
针对标识个人信息的规则中的模式匹配所述至少一个文本内容部分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于微软技术许可有限责任公司,未经微软技术许可有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201380008426.5/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法