[发明专利]文本识别方法、装置、非易失性存储介质及计算机设备在审
申请号: | 202110276318.2 | 申请日: | 2021-03-15 |
公开(公告)号: | CN115080709A | 公开(公告)日: | 2022-09-20 |
发明(设计)人: | 魏梦溪;张雅婷 | 申请(专利权)人: | 阿里巴巴新加坡控股有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/33;G06F16/35;G06F40/279;G06N20/00 |
代理公司: | 北京博浩百睿知识产权代理有限责任公司 11134 | 代理人: | 张文华 |
地址: | 新加坡珊顿道*** | 国省代码: | 暂无信息 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 识别 方法 装置 非易失性 存储 介质 计算机 设备 | ||
1.一种文本识别方法,其特征在于,包括:
获取待识别文本;
采用机器学习模型中的事件识别模型对所述待识别文本进行识别,得到第一识别结果,其中,所述第一识别结果中包括所述待识别文本中的事件类型和该事件类型对应的事件触发词;
采用所述机器学习模型中的实体识别模型对所述待识别文本进行识别,得到第二识别结果,其中,所述第二识别结果中包括与各个事件类型对应的实体和论元信息;
基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。
2.根据权利要求1所述的方法,其特征在于,基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息之前,所述方法还包括:
统计所述待识别文本中事件触发词的第一数量,以及所述待识别文本中所述事件类型的第二数量;
比较所述第一数量和第二数量的大小;
依据比较结果确定所述待识别文本中的所有事件触发词进行筛选,得到目标事件触发词。
3.根据权利要求2所述的方法,其特征在于,依据比较结果确定所述待识别文本中的所有事件触发词进行筛选,得到目标事件触发词,包括:
在所述比较结果指示所述第一数量大于所述第二数量时,确定所述待识别文本中所有事件触发词的评估指标;
将所述待识别文本中所有事件触发词按照评估指标的大小进行排序;并依据排序结果从所述第一数量的事件触发词中选择所述目标事件触发词。
4.根据权利要求3所述的方法,其特征在于,从所述第一数量的事件触发词中选择的所述目标事件触发词的数量与所述第二数量相同。
5.根据权利要求3所述的方法,其特征在于,所述方法还包括:在所述比较结果指示所述第一数量小于所述第二数量时,生成提示信息,该提示信息用于提示所述事件触发词的识别结果有误。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:在所述第一数量为非零值,所述第二数量为零值时,则拒绝执行以下步骤:基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。
7.根据权利要求1所述的方法,其特征在于,所述事件识别模型通过以下方式训练得到的:
将多组第一样本数据分别输入至所述事件识别模型进行训练,其中,所述多组第一样本数据中的每组数据均包括:第一样本文本、用于确定所述第一样本文本中事件触发词的第一问题模板、与所述第一问题模板对应的答案信息和事件类型。
8.根据权利要求1所述的方法,其特征在于,所述事件识别模型通过以下方式训练得到的:
将多组第二样本数据分别输入至所述事件识别模型进行训练,其中,所述多组第二样本数据中的每组数据均包括:第二样本文本、用于确定所述第二样本文本中实体和论元的第二问题模板、与所述第二问题模板对应的答案信息。
9.根据权利要求1至8中任意一项所述的方法,其特征在于,所述事件识别模型和所述实体识别模型为同一预训练语言模型,且所述事件识别模型和实体识别模型使用相同的模型参数。
10.一种文本识别方法,其特征在于,包括:
获取待识别文本;
对所述待识别文本进行第一次识别,得到第一识别结果,其中,所述第一识别结果中包括所述待识别文本中的事件类型和该事件类型对应的事件触发词;
对所述待识别文本进行第二次识别,得到第二识别结果,其中,所述第二识别结果中包括与各个事件类型对应的实体和论元信息;
基于所述第一识别结果和第二识别结果分别确定与所述各个事件类型对应的事件信息。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于阿里巴巴新加坡控股有限公司,未经阿里巴巴新加坡控股有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110276318.2/1.html,转载请声明来源钻瓜专利网。