[发明专利]一种从新闻页面中自动提取带命名人脸数据的方法有效

专利信息
申请号: 201611052904.4 申请日: 2016-11-24
公开(公告)号: CN106548162B 公开(公告)日: 2019-03-29
发明(设计)人: 程国艮;李欣杰 申请(专利权)人: 中译语通科技股份有限公司
主分类号: G06K9/00 分类号: G06K9/00;G06F16/958
代理公司: 北京万贝专利代理事务所(特殊普通合伙) 11520 代理人: 马红
地址: 100040 *** 国省代码: 北京;11
权利要求书: 查看更多 说明书: 查看更多
摘要: 发明公开了一种从新闻页面中自动提取带命名人脸数据的方法,从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:从新闻网页中提取图像及图像的文字描述内容、针对图像及图像的文字描述,进行分析、采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理。本发明解决了从新闻页面中自动提取带命名人脸数据效果不理想的问题。
搜索关键词: 一种 新闻 页面 自动 提取 命名 数据 方法
【主权项】:
1.一种从新闻页面中自动提取带命名人脸数据的方法,其特征在于,所述从新闻页面中自动提取带命名人脸数据的方法使用人脸检测技术从图片里检测出人脸,使用自然语言处理技术从说明文本中检测出人名,来自动提取标注人名的人脸图像数据;具体步骤包括:第一步,从新闻网页中提取图像及图像的文字描述内容:检测出图像,及图像在网页布局里的位置;检测出图像下面文字段落在网页里的位置;判断文字是否居中,检测出文字居中后,判断文字是否不超过两行,如果是,则将图像及图像的文字描述存储下来;第二步,针对图像及图像的文字描述,进行分析:使用人脸检测技术,检测出图片中的人脸集合F;采用自然语言处理技术,对文字描述进行命名实体识别,识别出人名集合N;第三步,采用从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理和采用在候选数据库里的数据之间进行精炼处理两种策略对候选数据库进行后处理;第三步中,从人脸数据库采用相似头像对候选数据库里的数据进行精炼处理包括:假定人脸数据库里的人脸数据集为D={(fi,ni)|i=1,2,…k},假设((fa1,fa2,…fan),(na1,na2,…,nan))为候选数据库里的一组结果,令C为D的子集,C={(fi,ni)|(fi,ni)∈D,且ni与na1,na2,…,nan中至少一个元素相等};使用人脸识别技术,计算两个人脸的相似度,令pfi,fak为人脸数据集里的人脸fi与候选数据库里的人脸fak的相似度,0≤pfi,fak≤1;相似度越高,表示两个人脸越相似;对C里的每个元素(fi,ni),分别计算fi与fa1,fa2,…fan的相似度,记为pfi,fa1,pfi,fa2,…,pfi,fan,取其最大值,记为pi,对应的人脸,记为fai;给定相似度阈值pt,其中,pt典型值为0.95,如果pi>pt,则从fa1,fa2,…fan中移除fai,从(na1,na2,…,nan)里移除与ni相同的值,得到序列((fb1,fb2,…fbn‑1),(nb1,nb2,…,nbn‑1)),如此计算,如果最终序列只剩下1对数据((f),(n)),则从该数据从候选数据库里移除,将(f,n)加入到人脸数据库中;第三步中,在候选数据库里的数据之间进行精炼处理包括:假设有两组解析结果,((fa1,fa2,…fan),(na1,na2,…,nan))与((fb1,fb2,…fbk),(nb1,nb2,…,nbk)),令pa1,b1为人脸fa1和fb1的相似度;分别计算fa1和fb1,fb2,…,fbk的相似度,记为pa1,b1,pa1,b2,…,pa1,bk,其中的最大值记为pa1;按同样计算,可得到pa1,pa2,…,pan序列;给定阈值pt,其中,pt典型值为0.95,如果pa1,pa2,…,pan序列里,有且只有一个值大于pt,记该值对应的人脸为fa;在人名序列(na1,na2,…,nan)和(nb1,nb2,…,nbk)中,如果只有一个人名相同,记该人名为n;将数据对(f,n)提取存储入人脸数据库。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。

该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中译语通科技股份有限公司,未经中译语通科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服

本文链接:http://www.vipzhuanli.com/patent/201611052904.4/,转载请声明来源钻瓜专利网。

×

专利文献下载

说明:

1、专利原文基于中国国家知识产权局专利说明书;

2、支持发明专利 、实用新型专利、外观设计专利(升级中);

3、专利数据每周两次同步更新,支持Adobe PDF格式;

4、内容包括专利技术的结构示意图流程工艺图技术构造图

5、已全新升级为极速版,下载速度显著提升!欢迎使用!

请您登陆后,进行下载,点击【登陆】 【注册】

关于我们 寻求报道 投稿须知 广告合作 版权声明 网站地图 友情链接 企业标识 联系我们

钻瓜专利网在线咨询

周一至周五 9:00-18:00

咨询在线客服咨询在线客服
tel code back_top