[发明专利]一种对象名称识别方法及装置有效
申请号: | 202110060884.X | 申请日: | 2021-01-18 |
公开(公告)号: | CN112861534B | 公开(公告)日: | 2023-07-21 |
发明(设计)人: | 郏昕;阳任科;赵冲翔 | 申请(专利权)人: | 北京奇艺世纪科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295 |
代理公司: | 北京柏杉松知识产权代理事务所(普通合伙) 11413 | 代理人: | 孟维娜;马敬 |
地址: | 100080 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 对象 名称 识别 方法 装置 | ||
1.一种对象名称识别方法,其特征在于,所述方法包括:
确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;
从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;
在各个候选文本片段中识别对象名称。
2.根据权利要求1所述的方法,其特征在于,所述从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,包括:
将第一对白发出片段确定为第一候选文本片段,其中,所述第一对白发出片段为:长度最小的对白发出片段;
针对每一第二对白发出片段,从长度小于该第二对白发出片段的已有候选文本片段中,判断是否存在与该第二对白发出片段连续相同至少两个字符的已有候选文本片段;若不存在,将该第二对白发出片段确定为第二候选文本片段;若存在,当该第二对白发出片段的第一频次与第二频次之间的差异在预设差异范围内时,将该第二对白发出片段确定为第二候选文本片段,其中,所述第二对白发出片段为:对白发出片段中除第一对白发出片段之外的片段;
将所述第一候选文本片段、第二候选文本片段作为候选文本片段。
3.根据权利要求1所述的方法,其特征在于,所述在各个候选文本片段中识别对象名称,包括:
从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段;
在各个所选择的候选文本片段中识别对象名称。
4.根据权利要求3所述的方法,其特征在于,所述从各个候选文本片段中,选择包含用于描述对象信息的字符的候选文本片段,包括:
针对每一候选文本片段,从长度小于该候选文本片段的其他候选文本片段中,确定与该候选文本片段之间长度最长的连续非相同字符;当所述连续非相同字符包含用于描述对象信息的字符时,将该候选文本片段片段确定为包含用于描述对象信息的字符的候选文本片段。
5.根据权利要求1所述的方法,其特征在于,所述确定文本中的对白发出片段的对白发出片段,包括:
在文本中查找表征对白内容片段开始的字符,作为开始字符;
将所述文本中位于所述开始字符之前相邻的、长度为预设长度范围的片段确定为对白发出片段。
6.根据权利要求1-5中任一项所述的方法,其特征在于,在各个候选文本片段中识别对象名称之后,还包括:
选择识别得到的对象名称中具有至少两个连续相同字符的对象名称;
当所选择出的对象名称的数量等于2时,确定所选择出的对象名称中非相同字符,并识别所述非相同字符的语义信息;
根据所识别的非相同字符的语义信息,判断所选择出的对象名称是否为指向同一对象的对象名称;
若为是,建立所选择出的对象名称之间的映射关系。
7.一种对象名称识别装置,其特征在于,所述装置包括:
片段确定模块,用于确定文本中的对白发出片段,其中,所述对白发出片段为:与对白内容片段相邻、且位于对白内容片段之前预设长度的文本片段;
片段选择模块,用于从各个对白发出片段中,选择第一频次与第二频次之间的差异在预设差异范围内的文本片段,作为候选文本片段,其中,所述第一频次为:每一对白发出片段在所述文本的所有对白发出片段中出现的频次,所述第二频次为:每一对白发出片段在所述文本的所有非对白发出片段中出现的频次;
对象名称识别模块,在各个候选文本片段中识别对象名称。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇艺世纪科技有限公司,未经北京奇艺世纪科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110060884.X/1.html,转载请声明来源钻瓜专利网。