[发明专利]一种裁判文书信息提取方法有效
申请号: | 201910949579.9 | 申请日: | 2019-10-08 |
公开(公告)号: | CN110688856B | 公开(公告)日: | 2020-09-18 |
发明(设计)人: | 金霞;杨红飞;程东;张庭正 | 申请(专利权)人: | 杭州费尔斯通科技有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/30;G06F16/35;G06F16/38;G06K9/62;G06Q50/18 |
代理公司: | 杭州求是专利事务所有限公司 33200 | 代理人: | 刘静 |
地址: | 310000 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: |
本发明公开了一种裁判文书信息提取方法,首先提取裁判文书的整个HTML的无格式文本text并进行标注,定义裁判文书中的事件结构为:事件类型‑实体类型‑…‑实体类型;将无格式的文本text按字切分,得到一个数组x,从而得到一个完整的样本(x,y);对样本(x,y)进行处理,得到事件类型提取模型的样本(x |
||
搜索关键词: | 一种 裁判 文书 信息 提取 方法 | ||
【主权项】:
1.一种裁判文书信息提取方法,其特征在于,该方法包括以下步骤:/n(1)获取裁判文书的整个HTML并解析,从HTML中提取无格式的文本text。/n(2)对提取的无格式文本text进行标注,在每个事件的标注任务中,一个标签定义为事件类型或实体类型,若一个标签和其他标签都存在关系,则把该标签定义为事件类型,而其他标签定义为实体类型,定义裁判文书中的事件结构为:事件类型-实体类型-…-实体类型,从无格式的文本text标注出每个事件下的事件类型及其实体类型对应的文字,得到标注数据。/n(3)将无格式的文本text按字切分,得到一个数组,记为x,x
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州费尔斯通科技有限公司,未经杭州费尔斯通科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910949579.9/,转载请声明来源钻瓜专利网。
- 上一篇:基于机器学习的中文医疗实体识别方法及系统
- 下一篇:一种文章生成的方法和装置
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置