[发明专利]一种基于剧本和字幕分析的抽取重要电影片段的方法有效

申请号：	201910500116.4	申请日：	2019-06-11
公开（公告）号：	CN110287376B	公开（公告）日：	2021-08-20
发明（设计）人：	李林峰;张怡;席德伟;艾泽发	申请（专利权）人：	天津大学
主分类号：	G06F16/78	分类号：	G06F16/78;G06K9/00
代理公司：	天津市北洋有限责任专利代理事务所 12201	代理人：	李素兰
地址：	300072***	国省代码：	天津;12
权利要求书：	查看更多	说明书：	查看更多
摘要：	本发明公开了一种基于剧本和字幕分析的抽取重要电影片段的方法，步骤1：从电影剧本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据；步骤2：从字幕中抽取出基本要素相关数据包括人物对话和人物对话的起始时间；步骤3：实现将剧本的信息丰富以及获得每个场景的起始时间；步骤4：依据人物相关、地点相关和配角相关将电影的相关场景合并，划分出电影片段；步骤5、6、7、8：分别计算关键词得分、主要人物得分、情感得分和动作得分，步骤9：计算每一个电影片段的重要程度值，取得分较高的作为重要的电影片段。本发明实现了在划分好电影片段的基础上对语义进行更深入的分析。
搜索关键词：	一种基于剧本字幕分析抽取重要电影片段方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【主权项】：

1.一种基于剧本和字幕分析的抽取重要电影片段的方法，其特征在于，该方法包括如下步骤：步骤1：从电影剧本原始文本中抽取出基本要素相关数据包括场景名、场景描述、人物、人物对话和人物动作的相关数据；步骤2：从字幕原始文本中抽取出基本要素相关数据包括人物对话和人物对话的起始时间；步骤3：利用步骤1和步骤2得到的相关数据，计算剧本和字幕中人物对话的相似度，取最大值进行匹配，实现将剧本的信息丰富以及获得每个场景的起始时间；步骤4：依据人物相关、地点相关和配角相关将电影的相关场景合并，划分出电影片段；步骤5：根据TF‑IDF算法提取整个剧本的关键词，统计词频，计算关键词得分，关键词得分给出定义如下：其中，k_关键词表示关键词编号，n_关键词表示关键词的个数，表示第k个关键词在全文的词频，表示第k_关键词个关键词在一个片段i中的词频；步骤6：分别统计每个片段中的主要人物的数量以及这些主要人物在该片段中的台词数量，计算主要人物得分，主要人物得分的定义如下：其中，|MC(i)|表示第i个片段中主要人物的数量|MCC(k_人物)|表示第k_人物个人物在一个电影片段中的台词数量；步骤7：提取每个片段的人物对话，计算情感得分，情感得分的定义如下：其中，X表示每句台词的情感值，n_台词表示一个片段中的台词数量，k_人物表示一个片段中的人物对话编号，i表示片段编号；步骤8：在提取出的关键词中查找动词，统计这些动词的词频以及关键词的词频，计算动作得分，动作得分的定义如下：其中，V表示属于一个片段i的关键词中动词的词频，f表示一个片段j中关键词的词频；i_动作表示动作的个数；步骤9：利用步骤5、6、7、8计算结果关键词得分、主要人物得分、情感得分和动作得分者四个值加权得到每一个电影片段的重要程度值，取得分较高的作为重要的电影片段，计算电影片段的重要程度值，电影片段的重要程度值的定义如下：IMC(i)＝r₁·KS(i)+r₂·MS(i)+r₃·ES(i)+r₄·AS(i)其中，IMC表示每个电影片段的重要程度值，KS表示关键词得分，MS表示主要人物得分，ES表示情感得分，AS表示动作得分，i表示片段编号，r₁,r₂,r₃,r₄表示权重函数。

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于天津大学，未经天津大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】

本文链接：http://www.vipzhuanli.com/patent/201910500116.4/，转载请声明来源钻瓜专利网。

上一篇：视频标签的确定方法、装置及服务器
下一篇：在线社交网络的增量式组水平的话题流行度预测方法

同类专利

专利分类

G 物理

G06 计算；推算；计数
G06F 电数字数据处理

免登录下载普通用户下载升级VIP会员，免费下载

[发明专利]一种基于剧本和字幕分析的抽取重要电影片段的方法有效

专利文献下载