[发明专利]一种影视剧本中人物阵营的识别和划分方法有效
申请号: | 201711202846.3 | 申请日: | 2017-11-27 |
公开(公告)号: | CN107977360B | 公开(公告)日: | 2021-04-13 |
发明(设计)人: | 孙利军 | 申请(专利权)人: | 西安影视数据评估中心有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F40/30;G06F16/36 |
代理公司: | 西安铭泽知识产权代理事务所(普通合伙) 61223 | 代理人: | 韩晓娟 |
地址: | 710071 陕西省西安市曲江新区翠*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 影视 剧本 人物 阵营 识别 划分 方法 | ||
1.一种影视剧本中人物阵营的识别和划分方法,其特征在于,该方法包括以下步骤:
步骤1,建立情感词词典;
步骤2,对影视剧本的文字内容进行分词处理,得到列表L1,对该列表L1进行向量化处理,并使用所述情感词词典生成情感词矩阵;
步骤3,针对剧本中的对白内容进行分词处理,记录到列表L2中;
步骤4,根据步骤3中的列表L2对影视剧本中人物的“协作或对抗”关系进行量化处理,得到代表两两人物之间“协作或对抗”关系的量化表征;
步骤5,使用步骤4中的量化表征构建人物社交网络并划分阵营;
其中,步骤2具体包括:
(1)逐行读取影视剧本文字内容;
(2)使用分词技术对读取的文字内容进行分词处理,得到所述列表L1;
(3)移除列表L1中的无意义词;
(4)对列表L1使用Word2Vec算法,生成列表L1去除重复词的词向量V;
(5)利用步骤1中的情感词词典与词向量V做交集,得到带有明确情感分类的词向量集合,该集合通过行合并或列合并的方式形成矩阵,称为所述情感词矩阵;
步骤3具体包括:
(1)初始化一个循环变量N,设置N=1;
(2)读取影视剧本的第N行字符串S1,判断字符串S1中是否存在中英文冒号,如果不存在中英文冒号,则设置N=N+1,继续执行第(2)步;如果存在中英文冒号且不是字符串S1第一个字符或最后一个字符,则继续进行下一步;
(3)读取第N+1行字符串S2,如果字符串S2中不存在中英文冒号,则设置N=N+2,返回第(2)步;如果字符串S2中存在中英文冒号,则继续进行下一步;
(4)读取字符串S2中冒号后的内容,去除无意义词后,得到字符串S3;
(5)对字符串S3进行分词处理,记录到列表L2中;
(6)设置N=N+1,返回第(2)步;
步骤4具体包括:
(1)利用Tf-Idf算法对步骤3列表L2中的剧本对白分词标注关键词权重,依据一定分位数阈值提取关键词权重总和排名靠前的剧本对白分词,记录到列表L2中;
(2)依次遍历列表L2中的剧本对白分词,从步骤2中第(4)步得到的词向量集合中找到该剧本对白分词对应的词向量,并按照各自对应的关键词权重求得加权平均向量;
(3)利用向量的余弦距离计算方法,计算得到的加权平均向量与步骤2中第(5)步得到的情感词矩阵各行的相似度,对于相似度大于一定阈值所代表的情感词,在其原始的情感词词典中找到其对应的情感分类和情感强度,以情感强度作为权重,对不同的情感分类做加权求和,得到不同情感分类的量化表征;
(4)针对第(3)步计算的各情感分类的量化表征,分别求得代表“协作”和“对抗”的总和,通过比较得到剧本对白所代表的两两人物之间“协作或对抗”关系的量化表征。
2.如权利要求1所述的一种影视剧本中人物阵营的识别和划分方法,其特征在于,步骤5具体包括:
(1)基于步骤4中第(4)步得到的两两人物之间的关系的量化表征,以人物为节点,人物与人物之间的“协作或对抗”关系作为边,以关系的量化表征作为边的权重,构建起人物社交关系网络,并以一定的节点中心度作为阈值,去掉社交关系网络中的部分节点;
(2)利用Newman快速算法对上一步得到的社交关系网络进行社群发现,由于上一步中构建社交关系网络时采用了人物之间“协作或对抗”关系的量化表征作为边的权重,在社群发现算法的作用下,低权重的边被划分在了同一社群内部,而社群之间的连接边具有高权重,从而实现了不同社群即阵营的划分。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于西安影视数据评估中心有限公司,未经西安影视数据评估中心有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711202846.3/1.html,转载请声明来源钻瓜专利网。