[发明专利]一种字段提取方法、装置及计算机存储介质有效
申请号: | 201811420222.3 | 申请日: | 2018-11-26 |
公开(公告)号: | CN111221975B | 公开(公告)日: | 2021-12-14 |
发明(设计)人: | 陈功;马雅奇;陈明威;陈彦宇;孙秀丹;仲丽君 | 申请(专利权)人: | 珠海格力电器股份有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36 |
代理公司: | 北京华夏泰和知识产权代理有限公司 11662 | 代理人: | 孟德栋 |
地址: | 519070*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 字段 提取 方法 装置 计算机 存储 介质 | ||
本申请涉及一种字段提取方法、装置及计算机存储介质,所述方法包括以下步骤:获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。本申请,结合了自定义的字段规则和训练模型来实现目标文件中的目标字段的提取,综合了自定义的字段规则的准确度高和训练模型的泛化能力强的优点,不仅提高了目标字段的提取准确度,而且还具有较高的通用性。
技术领域
本申请涉及计算机技术领域,具体涉及信息抽取技术领域,尤其涉及一种字段提取方法、装置及计算机存储介质。
背景技术
文本挖掘主要利用计算机处理技术从文本数据中抽取有价值的信息和知识,在文本挖掘过程中,信息抽取作为一项重要的基本应用技术,通常采用机器学习技术和统计方法从大量文本中提取出所需要的关键词信息,并对提取的关键词信息进行分析。
传统的关键词信息提取方法包括基于自定义识别规则和基于训练模型等信息提取方法,其中,基于自定义识别规则的信息提取方法准确率较高,但是构建模型的泛化能力较差,由于规则随着数据量的增加而增加,而且构建识别规则的过程中需要大量的语言学知识,语言不同的情况下一般识别规则也不相同,另外,还需要避免识别规则之间的冲突问题,导致构建识别规则的过程费时费力、可移植性不好,适用于数据量小且规则明确的信息提取;基于训练模型的信息提取方法具有较高的泛化能力,但是准确率较低,而且随着数据量的增加还需进一步提高泛化能力和准确率。
有鉴于此,急需一种泛化能力和准确度较高且具有通用性的信息提取方法。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种字段提取方法、装置及计算机存储介质。
有鉴于此,第一方面,本申请提供了一种字段提取方法,所述方法包括以下步骤:
获取待提取文件中的目标文本,得到包含有至少一个目标文本的目标文本集合;
利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合。
结合第一方面,在第一方面第一种可能的实施方式中,所述利用对应的训练模型和字段规则提取所述目标文件的目标字段,得到包含有至少一个所述目标字段的目标字段集合,包括以下步骤:
利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,得到包含有至少一个所述一级子目标字段的一级子目标字段集合;
利用所述字段规则提取所述目标文本中的至少一个二级子目标字段,得到包含有至少一个所述二级子目标字段的二级子目标字段集合;
将所述一级子目标字段集合和二级子目标字段集合组合得到所述目标字段集合。
结合第一方面,在第一方面第二种可能的实施方式中,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:
采用预设标注模式标注所述目标文本集合中的目标文本,得到包含有至少一个标注数据的标注数据集;
通过所述标注数据集训练BiLSTM-CRF模型得到对应的训练模型;
利用对应的训练模型识别所述目标文本的至少一个命名实体作为所述一级子目标字段。
结合第一方面,在第一方面第三种可能的实施方式中,所述利用对应的训练模型提取所述目标文本的至少一个一级子目标字段,包括:
采集预设语料作为字向量训练数据;
通过预设训练算法训练所述字向量训练数据得到字向量模型;
利用所述字向量模型训练所述BiLSTM-CRF模型得到对应的训练模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于珠海格力电器股份有限公司,未经珠海格力电器股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811420222.3/2.html,转载请声明来源钻瓜专利网。