[发明专利]一种结合知识库的基于MRC的公司实体消歧方法在审
申请号: | 202011070276.9 | 申请日: | 2020-09-30 |
公开(公告)号: | CN112257443A | 公开(公告)日: | 2021-01-22 |
发明(设计)人: | 张汝宸;朱德伟;朱峰 | 申请(专利权)人: | 华泰证券股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/211;G06F16/33;G06F16/35;G06N3/04;G06N3/08 |
代理公司: | 南京纵横知识产权代理有限公司 32224 | 代理人: | 董建林 |
地址: | 210019 *** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 结合 知识库 基于 mrc 公司 实体 方法 | ||
本发明公开了一种结合知识库的基于MRC的公司实体消歧方法,包括如下步骤:获取待消歧语句;将所述待消歧语句与提问句进行拼接,得到MRC结构;从实体知识库中获取待消歧语句中歧义简称对应的不同的实体描述语句;将不同的实体描述语句拼接在MRC结构的最后;将拼接了不同实体描述语句的MRC结构输入至Bert模型中;所述Bert模型输出歧义简称对应的真实实体,实现语句消歧。本发明有效提升了模型预测的准确率,同时有监督模型的泛化能力也避免了在新增公司实体时对于重新标注和模型训练的需要。
技术领域
本发明涉及人工智能领域,尤其涉及一种结合知识库的基于MRC的公司实体消歧方法。
背景技术
文本资讯是公司实体信息传播的主要媒介,精确定位发生新闻的公司实体 (公司关联)直接决定如何开展下游金融工作。在金融资讯中,公司实体(公司实体数以千万计)多以领域简称的形式出现,极易引发歧义。例如,老百姓可以指一家上市公司,也可以是“普通群众”;五粮液可以指上市公司也可指向五粮液白酒。实体消歧的本质在于一个词可能有多个意思,需结合上下文和知识库的相关知识确定它所表达的确切含义。公司实体的歧义消解对后续理解金融新闻资讯内容,关联准确的公司实体信息具有重要意义。
当前阶段,公司实体消歧常用的方法有:(1)基于正则表达式匹配的方法:维护各个可能出现歧义公司的正负样例(无歧义为正样例,有歧义为负样例) 规则,通过正则匹配的方式判断有无歧义;(2)基于无监督样本聚类的方法:通过对包含公司实体简称文本的语义聚类,发掘正负样例簇,进行消歧;(3) 基于有监督样本分类的方法:通过标注可能出现歧义公司的正负样本,训练二分类模型,进行消歧。
上述方法中,基于正则表达式匹配的方法,虽然具有较高的准确率,但召回低,扩展性差,需要持续不断地通过人工来维护规则库,效率低下;基于无监督样本聚类的方法,一方面由于缺乏监督信息,准确率相对较低,另一方面,对于每一个新增加的待消歧公司实体,都需要新增其相对应的无监督语料,并重新聚类;基于有监督样本分类的方法,一方面,由于只针对正负样本进行二分类,无法确定负样本即有歧义样本的具体歧义类别,另一方面,由于没有引入实体知识库的信息,无法有效利用知识库对于实体的描述。
发明内容
针对现有技术的不足,本发明提供了一种结合知识库的基于MRC的公司实体消歧方法,以解决现有技术中存在的准确率相对较低的问题。
为解决上述技术问题,本发明采用的技术方案为:
一种结合知识库的基于MRC的公司实体消歧方法,包括如下步骤:
获取待消歧语句;
将所述待消歧语句与提问句进行拼接,得到MRC结构;
从实体知识库中获取待消歧语句中歧义简称对应的不同的实体描述语句;
将不同的实体描述语句拼接在MRC结构的最后;
将拼接了不同实体描述语句的MRC结构输入至Bert模型中;
所述Bert模型输出歧义简称对应的真实实体,实现语句消歧。
进一步的,所述Bert模型的输出端设置有两个损失函数;所述损失函数包括第一任务损失函数和第二任务损失函数。
进一步的,所述第一任务损失函数为二分类损失;第二任务损失函数为多分类损失。
进一步的,所述第一任务损失函数通过如下公式表示:
output1=Sigmoid(W1×H[CLS])
loss1=binary_crossentropy(output1,label1)
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于华泰证券股份有限公司,未经华泰证券股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011070276.9/2.html,转载请声明来源钻瓜专利网。