[发明专利]文本识别方法、装置、非易失性存储介质及计算机设备在审
申请号: | 202110276318.2 | 申请日: | 2021-03-15 |
公开(公告)号: | CN115080709A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 魏梦溪;张雅婷 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/279;G06N20/00 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 张文华 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 非易失性 存储 介质 计算机 设备 | ||
本申请公开了一种文本识别方法、装置、非易失性存储介质及计算机设备。其中,该方法包括:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
技术领域
本申请涉及机器学习领域,具体而言,涉及一种文本识别方法、装置、非易失性存储介质及计算机设备。
背景技术
在智能司法领域中,司法文书分析平台作为NLP在司法场景下的典型应用,承载知识的底座,肩负着对司法场景下各类文书(裁判起诉书、判决书、庭审笔录、证据材料等)的解析和分析。而在司法文书分析平台中,实体抽取和事件抽取是必不可少的自然语言处理任务基本能力,将文书中大段的事实文字描述抽象出来,形成结构化的文本并输出,能够使事实更加清晰地展现在用户面前,同时理清事件发展的脉络、事件与事件之间的关系等。同时为上游的各类任务形成必要的铺垫。
在复杂的事件描述中,行为人的“施/受”行为会发生转变,甚至,在复杂事件中,行为人具有多重的身份。譬如:“王某在被抢后追击李某,将其扑倒在地”,王某既是“财产”犯罪的受害者,又是“人身”犯罪的施害人。然而,现有技术由于试图一次性解决分类识别、触发词识别、事件元素抽取、论元判别四个基本问题,设计之初基于了一些理想的基本假设,如:元素之间重叠现象不明显;同一句话所表征的事件中,主客体是一致的,且不会发生变化;事件中的实体元素与触发词之间的的关系是单纯的。
经过统计,这样的系统可以解决司法文书刑事案由中90%的事件情况。但是显然,在真实的场景中,复杂的事件是存在的,解决这些复杂事件的抽取问题是需要攻克的难题。
针对上述的问题,目前尚未提出有效的解决方案。
发明内容
本申请实施例提供了一种文本识别方法、装置、非易失性存储介质及计算机设备,以至少解决由于无法处理复杂案件中行为人的多重身份造成的无法形成结构化文本的技术问题。
根据本申请实施例的一个方面,提供了一种文本识别方法,包括:获取待识别文本;采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
根据本申请实施例的另一方面,还提供了一种文本识别方法,包括:获取待识别文本;对待识别文本进行第一次识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;对待识别文本进行第二次识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
根据本申请实施例的另一方面,还提供了一种文本识别装置,包括:获取模块,用于获取待识别文本;第一识别模块,用于采用机器学习模型中的事件识别模型对待识别文本进行识别,得到第一识别结果,其中,第一识别结果中包括待识别文本中的事件类型和该事件类型对应的事件触发词;第二识别模块,用于采用机器学习模型中的实体识别模型对待识别文本进行识别,得到第二识别结果,其中,第二识别结果中包括与各个事件类型对应的实体和论元信息;确定模块,用于基于第一识别结果和第二识别结果分别确定与各个事件类型对应的事件信息。
根据本申请实施例的另一方面,还提供了一种非易失性存储介质,非易失性存储介质包括存储的程序,其中,在程序运行时控制非易失性存储介质所在设备执行文本识别方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276318.2/2.html,转载请声明来源钻瓜专利网。