[发明专利]一种裁判文书信息提取方法有效
申请号: | 201910949579.9 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110688856B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 金霞;杨红飞;程东;张庭正 | 申请(专利权)人: | 杭州费尔斯通科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F16/38;G06K9/62;G06Q50/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 裁判 文书 信息 提取 方法 | ||
1.一种裁判文书信息提取方法,其特征在于,该方法包括以下步骤:
(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text;
(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及实体类型对应的文字,得到标注数据;
(3)将无格式的文本text按字切分,得到一个数组,记为x,xi为数组x中的第i个字;若x中的xi,xi+1,…,xi+j被标注为一个事件类型或实体类型,则其对应标签为yi,yi+1,…,yi+j,记为事件类型或实体类型-B,事件类型或实体类型-I,…,事件类型或实体类型-I,事件类型或实体类型-I的个数为j个;若xi在无格式的文本text中既没有被标记为事件类型也没有被标记为实体类型,则其对应标签yi记为O;从而得到一个完整的样本(x,y);
(4)对完整的样本(x,y)进行处理,具体包括以下步骤:针对数组x,对x进行向量化,得到x1;针对标签y,若y中元素yi不是事件类型-B也不是事件类型-I,则改为O,得到新的标签,记为y1;从而得到事件类型提取模型的样本(x1,y1);
(5)采用谷歌开源的BERT模型作为事件类型提取模型,并将步骤(4)中得到的样本(x1,y1)输入BERT模型中进行训练,得到训练好的事件类型提取模型,记为model_1;
(6)对标签y1中的事件进行处理;具体为:针对数组x,初始化一个事件类型矩阵Event_Embedding,该事件类型矩阵Event_Embedding每一行对应一种事件类型的向量,若数组y1的元素yi1是事件类型-B或事件类型-I,从事件类型矩阵Event_Embedding中找到该事件类型的向量,把该向量赋值给xi2,由此得到数组x2;针对标签y,若y中元素yi是事件类型-B或事件类型-I,则改为O,得到的新数组,记为y2;从而得到实体类型提取模型的样本([x1,x2],y2);
(7)将自注意力网络self-attention作为实体类型提取模型,将步骤(6)中得到的样本([x1,x2],y2)输入到实体类型提取模型进行训练,事件类型矩阵Event_Embedding为实体类型提取模型所需要拟合的参数,在训练过程中迭代更新,得到训练好的实体类型提取模型,记为model_2;
(8)获取未经人工标注过的待预测裁判文书的HTML并解析,然后将无格式的文本text按字切分得到数组x,使用BERT模型对数组x进行向量化,得到x1,将x1输入到model_1得到y1,根据步骤(6)对y1中的事件进行处理,得到待预测裁判文书的[x1,x2],输入到model_2中得到y2;根据y1和y2得到每个事件类型及实体类型对应的文字。
2.根据权利要求1所述的一种裁判文书信息提取方法,其特征在于,通过Python模块BeautifulSoup解析裁判文书的HTML,提取无格式的文本text。
3.根据权利要求1所述的一种裁判文书信息提取方法,其特征在于,步骤(4)中,使用Google开源的BERT模型提供的Word Embedding和Position Embedding对x进行向量化。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910949579.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于机器学习的中文医疗实体识别方法及系统
- 下一篇:一种文章生成的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置