[发明专利]人物实体的创作角度挖掘方法及装置有效
申请号: | 201710914887.9 | 申请日: | 2017-09-30 |
公开(公告)号: | CN107704572B | 公开(公告)日: | 2021-07-13 |
发明(设计)人: | 马健 | 申请(专利权)人: | 北京奇虎科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 深圳市世纪恒程知识产权代理事务所 44287 | 代理人: | 胡海国 |
地址: | 100088 北京市西城区新*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 人物 实体 创作 角度 挖掘 方法 装置 | ||
1.一种人物实体的创作角度挖掘方法,包括:
从网络数据来源中获取文章元数据,并解析出所述文章元数据中包含的人物实体词和与所述人物实体词相关的关键词;
利用所述人物实体词和所述关键词作为网络节点构建人物关键词网络,对所述人物关键词网络中的网络节点添加标签;
以相同标签作为社团划分依据,对所述人物关键词网络中的网络节点进行社团划分,将同一社团内的任意网络节点作为本社团中人物实体词的创作角度。
2.根据权利要求1所述的方法,其中,所述利用所述人物实体词和所述关键词作为网络节点构建人物关键词网络,包括:
以所述人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络,其中,所述连接权重表示网络节点之间的紧密度。
3.根据权利要求1所述的方法,其中,所述对所述人物关键词网络中的网络节点添加标签,包括:
利用预置的已添加标签的人物实体词和/或关键词与所述人物关键词网络中的网络节点进行匹配;
若匹配成功,将相应的标签添加至匹配成功的网络节点,并获取与匹配成功的网络节点之间的连接权重达到预设阈值的网络节点;
对获取到的连接权重达到预设阈值的网络节点添加相同标签。
4.根据权利要求1所述的方法,其中,对所述人物关键词网络中的网络节点添加标签,包括:
基于预置算法对所述人物关键词网络中的网络节点添加标签。
5.根据权利要求4所述的方法,其中,所述预置算法包括:标签传播算法LPA。
6.根据权利要求1-5任一项所述的方法,其中,所述标签包括以下至少之一:
所述人物实体词和/或所述关键词的属性信息;
与所述人物实体词和/或所述关键词相关的人物信息;
与所述人物实体词和/或所述关键词相关的事件信息。
7.根据权利要求2所述的方法,其中,所述以所述人物实体词和关键词作为网络节点,以人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重为边构建人物关键词网络之前,还包括:
统计所述人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。
8.根据权利要求7所述的方法,其中,所述统计所述人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重,包括:
提取所述文章元数据中的文章标题,从所述文章标题中解析出人物实体词和关键词;
统计所述文章标题中出现的共现词对,所述共现词对为同一文章标题中出现的人物实体词与关键词、不同人物实体词组成的词对;
计算所述共现词对在不同文章中对应的权重值,并对相同共现词对在不同文章中对应的权重值求和,以作为所述人物关键词网络中与共现词对对应的人物实体词与关键词之间的连接权重和/或不同人物实体词之间的连接权重。
9.根据权利要求8所述的方法,其中,所述计算所述共现词对在不同文章中对应的权重值,包括:
提取所述文章元数据中的文章正文;
依据所述共现词对所包含的共现词在所述文章正文中出现的次数,计算所述共现词对的权重值,其中,所述共现词为人物实体词和/或所述关键词。
10.根据权利要求8所述的方法,其中,所述解析出所述文章元数据中包含的人物实体词和关键词,包括:
提取所述文章元数据中的文章标题,对提取的文章标题进行分词;
依据分词后的词频对高频词过滤,并对过滤后的词进行词性标注,其中,将人物名词标注为人物实体词,与所述人物实体词相关的其他词标注为关键词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京奇虎科技有限公司,未经北京奇虎科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201710914887.9/1.html,转载请声明来源钻瓜专利网。