[发明专利]一种自动生成法律文本标记事件的方法有效
申请号: | 202110058260.4 | 申请日: | 2021-01-16 |
公开(公告)号: | CN112733507B | 公开(公告)日: | 2023-06-09 |
发明(设计)人: | 兰莉;周振东 | 申请(专利权)人: | 江苏网进科技股份有限公司 |
主分类号: | G06F40/169 | 分类号: | G06F40/169;G06F40/211;G06F40/247;G06F40/289;G06Q50/18 |
代理公司: | 苏州佳博知识产权代理事务所(普通合伙) 32342 | 代理人: | 唐毅 |
地址: | 215300 江苏省*** | 国省代码: | 江苏;32 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 自动 生成 法律 文本 标记 事件 方法 | ||
本发明公开了一种自动生成法律文本标记事件的方法,其包括输入初始的法律文本数据进行预处理,识别事件的触发词、事件的参数、事件类型;根据识别的事件参数与事件类型,使用GPT模型获取新的事件参数;根据识别的触发词与事件类型,通过BERT模型生成新的触发词;根据新的触发词与新的事件参数,生成新的法律文本标记事件;对新的法律文本标记事件进行评价;从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。通过替换参数和触发词的方法来生成新的标记事件,仅需要较少的初始法律文本数据即可自动生成大量的事件,避免了由于事件量不足造成的模型精确度不高的情况。
技术领域
本发明涉及用于法律文本处理领域,尤其涉及一种自动生成法律文本标记事件的方法。
背景技术
在法律文本事件抽取的模型训练中,为了训练出一个质量较为精确的模型,需要大量的已经标注好的事件数据集让模型进行机器学习,以此加强模型在事件抽取中的精确性。
以往使用的标注法律事件数据集,通常依赖于人为标注的法律事件,不仅需要耗费大量的时间与人力物力,标注的法律事件数量也不大。
本发明提供一种自动生成法律文本标记事件的方法解决上述人为标准的问题。
发明内容
为克服上述问题,本发明目的在于,提供一种自动生成法律文本标记事件的方法,以解决人为标注事件数据量不足,标注事件标注不一致的问题。
为实现上述目的,本发明提供如下技术方案:一种自动生成法律文本标记事件的方法,其包括输入初始的法律文本数据进行预处理,识别事件的触发词、事件的参数、事件类型;根据识别的事件参数与事件类型,使用GPT模型获取新的事件参数;根据识别的触发词与事件类型,通过BERT模型生成新的触发词;根据新的触发词与新的事件参数,生成新的法律文本标记事件;对新的法律文本标记事件进行评价;从评价完成的法律文本标记事件中选出评价符合标准的法律文本标记事件。
针对新的法律文本标记事件进行评价,其步骤包括:
(1)获取生成标记事件的合理性R(S′),具体满足:
其中,R(S')表示新生成标记事件S′的合理性分数,S′表示重写过的句子,P(t)表示重写事件参数t的概率,A(S')表示在句子S′中调整过后的新的事件参数;
(2)获取生成的标记事件和原有的标记事件之间的偏差度D(S′),具体满足:
其中,D(S')表示重写过的句子与原有句子之间的偏差度,D表示原有的数据集,B(S)生成标记事件句子的元素集合的特征向量化处理,B(S’)表示原有标记事件句子的元素集合的特征向量化处理,||表示对向量化后的文本进行取模操作;
(3)根据所述生成标记事件的合理性与偏差度计算最终标记事件的评价分数,评价分数Q(S′)满足:Q(S′)=1-((1-λ)R(S′)+λD(S′))其中,Q(S')为新生成标记事件S'的评价分数,μ、λ为自定义的平衡调节参,数。
与现有技术相比,本发明一种自动生成法律文本标记事件的方法的有益效果在于,根据初始定义的事件类型生成相同类型的标记事件,确保了事件类型的一致性,避免了人工标注事件所带来的不一致性。通过替换参数和触发词的方法来生成新的标记事件,仅需要较少的初始法律文本数据即可自动生成大量的事件,避免了由于事件量不足造成的模型精确度不高的情况。能够自动生成标记事件,与传统的人工标记事件方法相比,减少了大量的人力与时间,能够高效的为模型提供可靠的训练数据集。
附图说明
图1为本发明自动生成法律文本标记事件的方法的流程示意图;
具体实施方式
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于江苏网进科技股份有限公司,未经江苏网进科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110058260.4/2.html,转载请声明来源钻瓜专利网。