[发明专利]一种基于多源信息的网络人物属性提取及关系分析方法在审
申请号: | 202110257641.5 | 申请日: | 2021-03-09 |
公开(公告)号: | CN113343667A | 公开(公告)日: | 2021-09-03 |
发明(设计)人: | 潘晓光;张娜;宋晓晨;陈亮;陈智娇 | 申请(专利权)人: | 山西三友和智慧信息技术股份有限公司 |
主分类号: | G06F40/211 | 分类号: | G06F40/211;G06F40/295;G06F40/30;G06N3/04;G06N3/08 |
代理公司: | 深圳科润知识产权代理事务所(普通合伙) 44724 | 代理人: | 李小妮 |
地址: | 030000 山西省*** | 国省代码: | 山西;14 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 信息 网络 人物属性 提取 关系 分析 方法 | ||
本发明属于应用网络人物属性提取及关系分析技术领域,具体涉及一种基于多源信息的网络人物属性提取及关系分析方法,包括如下步骤:预处理和后处理数据、输入数据、输出结果,所述预处理和后处理数据采用基于触发词、词典和规则相结合的方法对数据进行处理;所述输入数据输入使用海量的文本数据和深层网络模型训练出来的预训练词向量;所述输出数据使用BiLSTM学习词序列的上下文特征,同时使用CRF模型通过全局信息推断标签的能力,再输出结果。
技术领域
本发明属于应用网络人物属性提取及关系分析技术领域,具体涉及一种基于多源信息的网络人物属性提取及关系分析方法。
背景技术
目前互联网数据中含有海量人物信息(例如,人物基本信息、人际关系、参与事件等),然而互联网数据源头多、冗余数据多、数据量大的特点使得互联网用户难以快捷准确地获取目标人物信息。
存在问题或缺陷的原因:目前通用的人物属性获取方法是用户通过搜索引擎查询所关注的某个人物的内容,往往需要用户在很多非结构化自由文本中再查找感兴趣的信息。这一方法暴露出速度慢、成本高和效率低下等诸多缺点。
发明内容
针对上述方法速度慢、成本高和效率低等问题,本发明提供了一种具有速度快且结果准确的网络人物属性提取及关系分析方法。
为了解决上述技术问题,本发明采用的技术方案为:
一种基于多源信息的网络人物属性提取及关系分析方法,包括下列步骤:
S100、预处理和后处理数据:采用基于触发词、词典和规则相结合的方法对数据进行处理;
S200、输入数据:使用海量的文本数据和深层网络模型训练出来的预训练词向量;
S300、输出结果:使用BiLSTM学习词序列的上下文特征,同时使用CRF模型通过全局信息推断标签的能力,再输出结果。
所述预处理和后处理数据中,从百度百科、维基百科和搜狗百科中获取人物相关的非结构化文档作为测试语料,去掉图片url等结构化内容,整理成描述该人物的文本文件。
所述预处理和后处理数据中,通过分析自然语言文本特征和中文语言的表述习惯,为每个属性建立了对应的触发词表。
所述预处理和后处理数据中,针对国家、城市、学校等范围比较固定的属性,可以利用词典直接匹配出部分属性值。
所述预处理和后处理数据中,结合词性标注、句法分析和命名实体识别等语言分析,归纳整理出语料中属性描述的一般特征,然后根据这些特征对各属性类别指定语法规则和模板,在系统中应用这些规则和模板进行匹配实现人物属性提取。
所述预处理和后处理数据中,根据制定的规则和构造的词典对输入的非结构化文档进行属性提取。
所述输入数据中,使用BERT预训练模型作为模型的输入,通过查询字向量表将文本中的每个字转换为一维向量,然后将输入各字对应的融合全文语义信息后的向量表示
所述输出结果中,BiLSTM在训练时将序列处理为一个向前{h1,h2,h3,…,ht}和一个向后的序列{h′1,h′2,h′3,…,h′t},然后将两个序列传入同一个输出层,得到序列 X={[h1,h′1],[h2,h′2],[h3,h′3],…,[ht,h′t]},再经过CRF考虑序列前后的标签信息。
本发明与现有技术相比,具有的有益效果是:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于山西三友和智慧信息技术股份有限公司,未经山西三友和智慧信息技术股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110257641.5/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置