[发明专利]基于中值转化模型的句子对关系判别方法在审
申请号: | 201911081378.8 | 申请日: | 2019-11-07 |
公开(公告)号: | CN110825851A | 公开(公告)日: | 2020-02-21 |
发明(设计)人: | 陈元宝;庄建昌;肖声明 | 申请(专利权)人: | 中电福富信息科技有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F40/205;G06K9/62;G06N20/00 |
代理公司: | 福州君诚知识产权代理有限公司 35211 | 代理人: | 彭东 |
地址: | 350000 福建省福州*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 中值 转化 模型 句子 关系 判别 方法 | ||
本发明公开基于中值转化模型的句子对关系判别方法,首先将句子分别记为SEN‑A和SEN‑B,所有的SEN‑A构成A句的语料,所有的SEN‑B构成B句的语料。将SEN‑A和SEN‑B通过文本的分布式表示转化为向量形式,然后将A句的向量和B句的向量取平均作为本句子对的向量,就能得到句子对的结构化表示。之后就可以使用机器学习算法对其进行处理,完成下游NLP任务。本发明提出了中值转化模型,借助于文本的分布式模型将句子对转化为结构化数据,从而更有助于下游任务的处理。本发明还依据该模型进行了句子对关系判别实验,实验的效果验证了模型的有效性。
技术领域
本发明涉及人工智能技术领域,尤其涉及基于中值转化模型的句子对关系判别方法。
背景技术
句子对的表示判别涉及到多个自然语言处理(NLP)领域,比如问题推断,问答系统,对话系统。句子对的表示具有众多应用场景。然而,对句子对的表示目前在业界还较为罕见。实际的应用场景中,面临着如何转化句子对关系任务可能会面临:一、实际各个类的语料分布不平衡的问题;二、句子对的结构化问题。因此,构建一个较好的句子对关系表示模型具有研究价值。对句子对进行表示有助于下游NLP任务的处理。
发明内容
本发明的目的在于提供基于中值转化模型的句子对关系判别方法,利用该方法得到的结果有利于下游的文本任务的处理,提出的中值转化方法能够在不平衡的语料数据上具有良好的性能。
本发明采用的技术方案是:
基于中值转化模型的句子对关系判别方法,其包括以下步骤:
步骤1,搜集所有的句子对SEN-A和SEN-B,所有的SEN-A构成一个A句的语料,所有的SEN-B构成B句的语料,
步骤2,分别将这两个语料中的SEN-A和SEN-B转化为向量形式(embedding化),这可以通过目前流行的文本的分布式模型,比如word2vec,doc2vec,bert。其中doc2vec和bert都有相应的办法直接得到句子的向量,而word2vec能够得到句子中每个词的向量,然后取句子中所有词向量的平均值作为该句的向量。
步骤3,得到了每一个句子的embedding之后,取embedding-a和embedding-b的平均值,即将一个句子对中A句的embedding和B句的embedding相加,再除以2,所得的结果作为这一个句子对的embedding。
步骤4,将每一个句子对的embedding和其标签匹配,得到了结构化的语料集。
步骤5,通过步骤2,就将句子对的关系判别任务转化为普通文本分类任务了,之后就能够使用机器学习分类算法或者深度学习的分类算法构建分类器,输出测试集的预测结果。
本发明采用以上技术方案,提出了中值转化模型,借助于文本的分布式模型将句子对转化为结构化数据,能够较为合理的提取文本的特征,文本句子间的相似关系,从而更有助于下游任务的处理。本发明简便易行,生成速度快,适应语料分布不平衡的场景,同时能够与各类机器学习(深度学习)方法相结合完成更复杂的任务。本发明还依据该模型进行了句子对关系判别实验,实验的效果验证了模型的有效性。
附图说明
以下结合附图和具体实施方式对本发明做进一步详细说明;
图1为本发明基于中值转化模型的句子对关系判别方法的流程示意图。
具体实施方式
如图1所示,SEN-A和SEN-B分别代表句子对中的A句和B句,embedding-a和embedding-b分别代表句子SEN-A和SEN-B的embedding(词嵌入),符号⊕代表将embedding-a与embedding-b相加。本发明公开了基于中值转化模型的句子对关系判别方法,包括以下步骤:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中电福富信息科技有限公司,未经中电福富信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911081378.8/2.html,转载请声明来源钻瓜专利网。