[发明专利]一种基于舆情及企业画像识别多个企业之间关系的方法在审

申请号：	202010205306.6	申请日：	2020-03-23
公开（公告）号：	CN111091007A	公开（公告）日：	2020-05-01
发明（设计）人：	梁协君;蒋涛;汤斯亮;蒋建军	申请（专利权）人：	杭州有数金融信息服务有限公司
主分类号：	G06F40/295	分类号：	G06F40/295;G06N3/04;G06N3/08
代理公司：	杭州合谱慧知识产权代理事务所(特殊普通合伙) 33290	代理人：	张刚
地址：	310000 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于舆情企业画像识别之间关系方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于舆情及企业画像识别多个企业之间关系的方法，其具体步骤如下，对非结构化文本数据进行命名实体提取，若文本中出现多个企业实体，则设法与结构化的企业画像数据对齐，同时得到目标企业在文本中位置信息和企业画像标签。针对对齐后的目标企业实体，同时计算实体所在文本上下文向量、实体词词向量、位置向量与企业标签向量（如：所属行业、规模、成立时长、经营所在地等）。利用双向GRU循环神经网络结合注意力模型进行企业关系（如：竞争、合作、上下游等关系）分类模型训练。将训练后的模型用于计算两个出现在同一舆情文本中企业的关系判别。

技术领域

本发明涉及机器学习的相关技术，尤其涉及一种基于舆情及企业画像识别多个企业之间关系的方法。

背景技术

互联网上充斥着各种企业舆情信息，利用机器学习算法，我们可以将非结构化的文本数据转化为结构化数据，如识别企业名称并将其关联到结构化的企业实体库中，并进一步得到不同实体之间的关系，如：投资关系、竞争关系、上下游关系等。

目前，实体关系分类方法主要基于纯文本的分析得到的实体关系分类。但在企业舆情领域，舆情信息存在来源不可控、描述多样性等问题，导致识别效果较差，关系无法用于真实生成环境。

本申请通过结合企业标签数据、文本位置信息等方式，提出了一种基于舆情及企业画像识别多个企业之间关系的方法，可提升企业关系识别的效果。

发明内容

本发明针对现有技术中的不足，提供了一种基于舆情及企业画像识别多个企业之间关系的方法，可有效提高企业实体间关系分类的准确性。

为了解决上述技术问题，本发明通过下述技术方案得以解决：

对输入的舆情文本进行预处理，通过利用已经训练好的企业命名实体抽取模型识别出文本中的企业实体，找到文本中的企业实体的位置。针对存在多个企业实体的文本，搜索企业别名库，将这些实体与企业别名库中的结构化企业实体进行对齐。最终得到该文本中企业实体名称、位置以及标签，其中每一个都代表一个标签维度里的标签值。同时根据输入文本构建文本序列，其中是普通词汇，是实体名词。

对文本序列中每个字符相对实体计算相对位置步长得到位置序列，其中的每一个对应一个文本中的一个字符相对实体的相隔字符个数，字符在实体左边为负值，右边为正值。

任意选择文本D中的一对实体，对文本序列D（包含实体）、两个实体的位置序列、实体标签，利用词向量模型训练工具变成词向量、位置向量、实体标签向量。

按照如下方式组合S2.2中的向量得到。

其中构建句向量的句向量结构说明可参见附图2。

最终形成包含词向量、位置向量、实体标签向量的句向量作为关系分类模型的输入。

利用深度学习计算框架（如tensorflow）构建双向GRU循环神经网络，作为关系分类模型神经网络计算框架，其中该神经网络包括：输入层、GRU层、输出层：

输入层是上文中得到的向量输入到搭建好的网络中，并将词向量与两个位置向量以及两个实体标签向量进行拼接，形成句向量；并重新生成好的句向量作为GRU层的输入；

GRU层将句向量输入到该层通过双向GRU的计算得到特征向量，作为输出层的输入向量；

输出层将GRU层计算得到的隐状态向量通过softmax分类器的非线性变化进行分类，得到最终关系分类结果；

将标注好两个实体位置以及实体之间关系的文本作为样本，并按7:2:1分成训练集、验证集、测试集。并将训练接样本进行数据预处理形成句向量，再输入到准备好的神经网络计算框架中，进行训练，调参，最终形成预测模型。

附图说明

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。