[发明专利]一种用于矛盾纠纷事件因果关系识别的深度学习方法有效
申请号: | 201911144453.0 | 申请日: | 2019-11-20 |
公开(公告)号: | CN111709244B | 公开(公告)日: | 2023-09-26 |
发明(设计)人: | 钱华;姜永华;钱建华;王巧荣;房查;张宏斌 | 申请(专利权)人: | 中共南通市委政法委员会;江苏飞搏软件股份有限公司 |
主分类号: | G06N3/0455 | 分类号: | G06N3/0455;G06N3/08;G06N5/025;G06F40/30;G06Q50/18 |
代理公司: | 南京众联专利代理有限公司 32206 | 代理人: | 周新亚 |
地址: | 226000 江苏省南通市*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 用于 矛盾 纠纷 事件 因果关系 识别 深度 学习方法 | ||
本发明涉及一种用于矛盾纠纷事件因果关系识别的深度学习方法,所述方法包括以下步骤:步骤1:获取训练语料文本;步骤2:训练语料文本预处理;步骤3:自动标注提取的每个句子数组,输出标注后的M个包含1个结果句子、1个原因句子和15随机句子的句子数组;步骤4:训练基于上下文注意力机制的因果关系识别模型;步骤5:待识别的矛盾纠纷事件描述文本预处理,输出对应的句子的语义特征向量;步骤6:将语义特征向量组合后输入训练好的因果关系识别模型中;步骤7:输出矛盾纠纷事件间的因果关系。该技术方案解决了传统的基于机器学习的分类方法的因果关系识别准确度不高的问题。
技术领域
本发明涉及一种深度学习方法,具体涉及一种用于矛盾纠纷事件因果关系识别的深度学习方法,属于大数据应用服务平台技术领域。
背景技术
大数据技术使得实现对综治网格内各类矛盾纠纷事件的全覆盖和零遗漏成为可能,然而排查出来的矛盾纠纷大数据是纷繁复杂的,如何从各类矛盾纠纷事件中发现因果关系,为矛盾纠纷及时、高效、源头化解提供依据,以免导致重大案事件的发生,是目前亟待解决的问题。
目前,事件间的关系识别多采用基于机器学习的分类方法,该方法首先需要对语料库进行人工标注,然后提取事件之间的文本特征,再通过构造分类模型,识别事件间的因果关系。
但是,基于机器学习的分类方法的主要存在以下问题:第一,对矛盾纠纷事件间的隐性因果关系识别适用性不强;第二,没有考虑到事件描述文本中的句子的上下文信息;第三,人工标注的经济成本和时间成本太大,因此,迫切的需要一种新的方案解决上述技术问题。
发明内容
本发明正是针对现有技术中存在的问题,提供一种用于矛盾纠纷事件因果关系识别的深度学习方法,该技术方案解决了传统的基于机器学习的分类方法的因果关系识别准确度不高,且对矛盾纠纷事件间的隐性因果关系识别适用性不强的问题。
为了实现上述目的,本发明的技术方案如下,一种用于矛盾纠纷事件因果关系识别的深度学习方法,其特征在于,所述方法包括以下步骤:
步骤1:获取训练语料文本;
步骤2:训练语料文本预处理,输出从M个事件描述文本中提取的M个包含2个因果关系、15个上下文非因果关系句子的句子数组;
步骤3:自动标注提取的每个句子数组,输出标注后的M个包含1个结果句子、1个原因句子和15随机句子的句子数组;
步骤4:训练基于上下文注意力机制的因果关系识别模型;
步骤5:待识别的矛盾纠纷事件描述文本预处理,输出对应的句子的语义特征向量;
步骤6:将语义特征向量组合后输入训练好的因果关系识别模型中;
步骤7:输出矛盾纠纷事件间的因果关系。
作为本发明的一种改进,步骤1中获取训练语料文本过程如下:
1-1利用网络爬虫工具,从政务微博、重大新闻网站、政府网站等多源网页中采集事件文本数据,形成初始事件文本库;
1-2从多源业务数据库中采集矛盾纠纷大数据,形成矛盾纠纷事件分析库;
1-3对初始事件文本库中的数据和分析库中的矛盾纠纷事件数据进行清洗,提取出矛盾纠纷事件描述文本,形成训练语料文本。
作为本发明的一种改进,所述步骤2中所述的训练语料文本的预处理过程如下:
2-1标注训练语料文本中每个矛盾纠纷事件描述文本中的因果关系连接词;
2-2根据因果关系连接词,从M个事件描述文本中提取的M个包含2个因果关系、15个上下文非因果关系句子的句子数组;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中共南通市委政法委员会;江苏飞搏软件股份有限公司,未经中共南通市委政法委员会;江苏飞搏软件股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911144453.0/2.html,转载请声明来源钻瓜专利网。