[发明专利]一种基于新词发现和Flat-lattice的粮情命名实体识别方法在审
申请号: | 202111076986.7 | 申请日: | 2021-09-14 |
公开(公告)号: | CN113743122A | 公开(公告)日: | 2021-12-03 |
发明(设计)人: | 肖乐;李家馨;葛亮;吴涛;段梦诗;岳思雯;陈啸林;单昕 | 申请(专利权)人: | 河南工业大学 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/242;G06F40/117;G06F16/33;G06F16/951;G06K9/62 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 450001 河南省郑州市高新技*** | 国省代码: | 河南;41 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 新词 发现 flat lattice 命名 实体 识别 方法 | ||
1.本发明提出了一种基于新词发现和Flat-lattice的粮情命名实体识别方法,其特征在于:所述方法步骤如下:
步骤(A)建立粮情命名实体识别文本语料库;
步骤(B)N-grams算法构建粮情字典;
步骤(C)BIOES标注方式对数据集进行标注;
步骤(D)粮情词典辅助构建flat结构;
步骤(E)基于Flat-lattice算法的模型学习;
步骤(F)对模型训练结果进行评价。
2.根据权利要求1所述的一种基于新词发现和Flat-lattice的粮情命名实体识别方法,其特征在于:步骤(A),建立粮情命名实体识别文本语料库,采用python爬虫技术从粮食大辞典和知网上爬取粮情相关文本,并将其存为txt文件;之后,整理获取的粮情语料库,针对数据缺失和冗余等数据质量问题,建立属性约束和完整性约束进行数据筛选与重复数据的冗余清除。
3.根据权利要求1所述的一种基于新词发现和Flat-lattice的粮情命名实体识别方法,其特征在于:步骤(B),N-grams算法构建粮情字典,使用N-grams算法从粮情语料库中获取新词,利用这些新词帮助jieba算法进行分词,根据分词后的结果使用Word2vec构建粮情词典。
4.根据权利要求1所述的一种基于新词发现和Flat-lattice的粮情命名实体识别方法,其特征在于:步骤(C),BIOES标注方式对文本进行标注,根据分词结果将其分为15种粮情标签,采用BIOES的标注方式对文本中这15种实体类别进行标记:设某个词对应的标签为Label,则位于该词语最开始的字符标记为B-Label,位于该词语中间的字符标记为I-Label,位于该词语末尾的字符标记为E-Label,若该词语只有一个字符则标记为S-Label,若该词语没有带标签或者不属于实体标签则标记为O,最后将文本语料库分为测试集和训练集。
5.根据权利要求1所述的一种基于新词发现和Flat-lattice的粮情命名实体识别方法,其特征在于:步骤(D),粮情词典辅助构建flat结构,利用Fastnlp包将原始文本与字典拼接得到lattice结构,之后由lattice的下标映射得到其每个词的起始位置Head和终止位置Tail,从而将lattice结构展为flat结构;然后将原始文本、标签、两两匹配字符、句子长度、词典及词典中词的起始、终止位置,lattice结构和flat结构等封装在Dataset,并根据batchsize将数据分成数个Batchdata。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于河南工业大学,未经河南工业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202111076986.7/1.html,转载请声明来源钻瓜专利网。