[发明专利]自动解析文本中隐私信息的方法和装置在审
申请号: | 202110601345.2 | 申请日: | 2021-05-31 |
公开(公告)号: | CN113283232A | 公开(公告)日: | 2021-08-20 |
发明(设计)人: | 鲍梦瑶;刘佳伟;章鹏;刘新源;张谦;贾茜 | 申请(专利权)人: | 支付宝(杭州)信息技术有限公司 |
主分类号: | G06F40/205 | 分类号: | G06F40/205;G06F40/211;G06F40/289;G06F21/62;G06N3/04;G06K9/62;G06N3/08 |
代理公司: | 北京亿腾知识产权代理事务所(普通合伙) 11309 | 代理人: | 孙欣欣;周良玉 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 解析 文本 隐私 信息 方法 装置 | ||
本说明书实施例提供一种自动解析文本中隐私信息的方法和装置,方法包括:获取待解析文本;对所述待解析文本进行分词处理,得到包含若干个词语的词序列;对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。能够提升文本的解析效果。
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及自动解析文本中隐私信息的方法和装置。
背景技术
隐私数据(private data)或秘密数据,是指不想被他人或无关人等获知的信息,从隐私的所有者的角度,可以将隐私数据分为个人隐私数据和共同隐私数据,其中个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主,如家庭年收入情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。为了防止隐私数据的泄露和滥用,常常会涉及自动解析文本中隐私信息。
现有技术中,利用提前标注的数据构建命名实体模型,而后利用命名实体模型从文本中抽取隐私信息。由于需要大量的标注数据,标注难度大,且模型计算复杂,对文本的解析效果不佳。
因此,希望能有改进的方案,能够提升文本的解析效果。
发明内容
本说明书一个或多个实施例描述了一种自动解析文本中隐私信息的方法和装置,能够提升文本的解析效果。
第一方面,提供了一种自动解析文本中隐私信息的方法,方法包括:
获取待解析文本;
对所述待解析文本进行分词处理,得到包含若干个词语的词序列;
对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量;
根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率;
将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别;
根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果。
在一种可能的实施方式中,所述对所述待解析文本进行分词处理,包括:
将所述待解析文本拆分为多个语句;
将所述多个语句中的任一语句作为目标语句,将所述目标语句输入迁移学习模型,通过所述迁移学习模型对所述目标语句进行分词处理,得到包含若干个词语的词序列。
在一种可能的实施方式中,所述对所述词序列进行基于上下文的编码,包括:
将所述词序列输入深度学习模型的编码层,通过所述编码层对所述词序列进行基于上下文的编码,得到所述若干个词语分别对应的词向量。
进一步地,所述根据所述词向量,确定其对应的词语分别属于多个隐私信息类别的各概率,包括:
将所述词向量输入所述深度学习模型的分类层,通过所述分类层输出其对应的词语分别属于多个隐私信息类别的各概率。
在一种可能的实施方式中,所述根据词语的归属类别和该词语在所述词序列中的位置,确定所述待解析文本的解析结果,包括:
根据词语的归属类别和该词语在所述词序列中的位置,检查所述待解析文本中相邻位置的多个词语是否为同一归属类别;
合并同一归属类别的相邻位置的多个词语,作为一个结果单元,将结果单元对应的归属类别和其在所述词序列中的位置确定为所述待解析文本的解析结果。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于支付宝(杭州)信息技术有限公司,未经支付宝(杭州)信息技术有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110601345.2/2.html,转载请声明来源钻瓜专利网。