[发明专利]人物识别的方法、装置、设备及存储介质在审
申请号: | 202010524814.0 | 申请日: | 2020-06-10 |
公开(公告)号: | CN111767715A | 公开(公告)日: | 2020-10-13 |
发明(设计)人: | 王文超;阳任科 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/289;G06F40/295;G06F40/253;G06F16/335 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 韩月玲 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人物 识别 方法 装置 设备 存储 介质 | ||
1.一种人物识别方法,其特征在于,包括:
对剧本文本进行分词处理,获得包含有至少一个词语的分词集合;
从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合;
根据每个所述候选词语在所述剧本文本中的位置和/或上下文文本,获得至少两个所述候选词语之间的映射关系,其中,一个所述映射关系中包含的所述候选词语用于指代同一个人物;
根据所述映射关系,对所述候选词语集合进行过滤,得到所述剧本中识别到的人物。
2.根据权利要求1所述的人物识别方法,其特征在于,所述从所述分词集合中,提取具有预设人物属性的候选词语,得到候选词语集合,包括:
分别将所述分词集合中的每个词语,与已知的人物属性词词库中的词汇进行字符匹配,若匹配结果为所述词语属于所述人物属性词词库,将所述词语识别为所述候选词语并提取;
根据提取的所述候选词语,得到所述候选词语集合。
3.根据权利要求1所述的人物识别方法,其特征在于,所述预设人物属性包括人物名、身份名和称谓名三个类别的属性,所述候选词语集合中包括所述候选词语及所属的属性;
根据每个所述候选词语在所述剧本文本中的位置,获得至少两个所述候选词语之间的映射关系,包括:
根据所述候选词语在所述剧本文本中的位置,获取位置呈并列关系的至少两个所述候选词语;
如果所述呈并列关系的至少两个所述候选词语满足:每个所述候选词语具有不同的属性,则建立所述呈并列关系的至少两个所述候选词语之间的映射关系。
4.根据权利要求3所述的人物识别方法,其特征在于,所述根据每个所述候选词语在所述剧本文本中的位置和上下文文本,获得至少两个所述候选词语之间的映射关系,包括:
获取所述候选词语所在位置的上下文文本;
提取所述上下文文本中的对话语句以及配对的对话标识短语,其中,所述对话语句为一对双引号之间的语句,所述对话标识短语为冒号至上一个结束符号之间的短语;
根据所述对话语句中出现的所述候选词语,以及所述对话标识短语中出现的所述候选词语,获得属于同一人物的至少两个所述候选词语之间的映射关系。
5.根据权利要求4所述的人物识别方法,其特征在于,所述根据所述对话短语中出现的所述候选词语,以及所述对话标识短语中出现的所述候选词语,获得属于同一人物的至少两个所述候选词语之间的映射关系,包括:
获取第一对话标识短语出现的属于人物名或身份名类别的所述候选词语,作为第一候选词语;
获取第二对话语句中出现的属于称谓名类别的所述候选词语,作为第二候选词语;
建立所述第一候选词语和所述第二候选词语之间的映射关系;
其中,所述第二对话语句位于所述第一对话标识短语之前,且位置相邻;或者,所述第二对话语句位于第二对话标识短语之后,所述第二对话语句配对的第二标识短语,与所述第一对话标识短语配对的第一对话语句位置相邻。
6.根据权利要求3所述的人物识别方法,其特征在于,所述根据每个所述候选词语在所述剧本文本中的位置和上下文文本,获得至少两个所述候选词语之间的映射关系,包括:
获取所述上下文文本中,通过一个词语连接的两个所述候选词语;
将所述一个词语与指代类谓语词典进行字符匹配,获得匹配结果;
若所述匹配结果指示所述一个词语属于所述指代类谓语词典,建立所述两个所述候选词语之间的映射关系。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010524814.0/1.html,转载请声明来源钻瓜专利网。