[发明专利]自动解析文本中隐私信息的方法和装置在审

申请号：	202110601345.2	申请日：	2021-05-31
公开（公告）号：	CN113283232A	公开（公告）日：	2021-08-20
发明（设计）人：	鲍梦瑶;刘佳伟;章鹏;刘新源;张谦;贾茜	申请（专利权）人：	支付宝（杭州）信息技术有限公司
主分类号：	G06F40/205	分类号：	G06F40/205;G06F40/211;G06F40/289;G06F21/62;G06N3/04;G06K9/62;G06N3/08
代理公司：	北京亿腾知识产权代理事务所(普通合伙) 11309	代理人：	孙欣欣;周良玉
地址：	310000 浙江省杭州市***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	自动解析文本隐私信息方法装置
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本说明书实施例提供一种自动解析文本中隐私信息的方法和装置，方法包括：获取待解析文本；对所述待解析文本进行分词处理，得到包含若干个词语的词序列；对所述词序列进行基于上下文的编码，得到所述若干个词语分别对应的词向量；根据所述词向量，确定其对应的词语分别属于多个隐私信息类别的各概率；将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别；根据词语的归属类别和该词语在所述词序列中的位置，确定所述待解析文本的解析结果。能够提升文本的解析效果。

技术领域

本说明书一个或多个实施例涉及计算机领域，尤其涉及自动解析文本中隐私信息的方法和装置。

背景技术

隐私数据(private data)或秘密数据，是指不想被他人或无关人等获知的信息，从隐私的所有者的角度，可以将隐私数据分为个人隐私数据和共同隐私数据，其中个人隐私数据包括可以用来定位或者识别个人的信息(如电话号码、地址、信用卡号等)和敏感信息(如个人健康情况、财务信息、公司重要文件等)。共同隐私数据主要以家庭隐私为主，如家庭年收入情况等。隐私数据的泄露和滥用极易引起各种个人和公共安全问题。为了防止隐私数据的泄露和滥用，常常会涉及自动解析文本中隐私信息。

现有技术中，利用提前标注的数据构建命名实体模型，而后利用命名实体模型从文本中抽取隐私信息。由于需要大量的标注数据，标注难度大，且模型计算复杂，对文本的解析效果不佳。

因此，希望能有改进的方案，能够提升文本的解析效果。

发明内容

本说明书一个或多个实施例描述了一种自动解析文本中隐私信息的方法和装置，能够提升文本的解析效果。

第一方面，提供了一种自动解析文本中隐私信息的方法，方法包括：

获取待解析文本；

对所述待解析文本进行分词处理，得到包含若干个词语的词序列；

对所述词序列进行基于上下文的编码，得到所述若干个词语分别对应的词向量；

根据所述词向量，确定其对应的词语分别属于多个隐私信息类别的各概率；

将所述各概率中最大概率对应的隐私信息类别确定为相应词语的归属类别；

根据词语的归属类别和该词语在所述词序列中的位置，确定所述待解析文本的解析结果。

在一种可能的实施方式中，所述对所述待解析文本进行分词处理，包括：