[发明专利]一种基于实例特征建模的命名实体列表生成方法在审
申请号: | 201910665716.6 | 申请日: | 2019-07-23 |
公开(公告)号: | CN110399452A | 公开(公告)日: | 2019-11-01 |
发明(设计)人: | 肖清林 | 申请(专利权)人: | 福建奇点时空数字科技有限公司 |
主分类号: | G06F16/31 | 分类号: | G06F16/31;G06F16/35;G06F17/27 |
代理公司: | 北京劲创知识产权代理事务所(普通合伙) 11589 | 代理人: | 王志敏 |
地址: | 361000 福建省厦门市软件园*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 命名实体 实例特征 列表生成 语料库 建模 列表信息 实例数据 实时更新 特征建模 时效性 特征库 分词 构建 采集 | ||
一种基于实例特征建模的命名实体列表生成方法,所述方法包括以下步骤:S1、采集实例特征数据;S2、通过特征建模建立实例特征库;S3、建立命名实体语料库;S4、对实例数据进行分词并构建命名实体识别模型;S5、利用命名实体识别模型对实例进行识别;S6、根据实例特征库和命名实体语料库生成命名实体列表。本发明通过实例特征建模提高命名实体列表的准确性,实时更新的特征库和语料库不仅提高列表生成效率且列表信息的时效性得以保障。
技术领域
本发明涉及命名实体列表技术领域,尤其涉及一种基于实例特征建模的命名实体列表生成方法。
背景技术
随着互联网和信息产业的高速发展,海量的文本数据不断产生,如何高效地从海量的文本数据中获得有用的信息成为现在的研究热点,信息抽取技术应运而生,而命名实体识别是信息抽取的一项子任务,其目的是从海量的文本数据中抽取出指定的实体。
一般地,命名实体类型多样,数量众多,不断有新的命名实体出现,传统的命名实体识别技术不能有效地识别出新词;同时,命名实体构成结构比较复杂,命名实体的长度没有一定的限制,不同的实体有不同的结构,实体之间可能存在大量的嵌套、别名、缩略词等问题,所以单一的基于统计模型的命名实体识别技术对边界的识别会变得不够准确,以上所述都会给命名实体识别造成困难。
为解决上述问题,本申请中提出一种基于实例特征建模的命名实体列表生成方法。
发明内容
(一)发明目的
为解决背景技术中存在的技术问题,本发明提出一种基于实例特征建模的命名实体列表生成方法,通过实例特征建模提高命名实体列表的准确性,实时更新的特征库和语料库不仅提高列表生成效率且列表信息的时效性得以保障。
(二)技术方案
为解决上述问题,本发明提供了一种基于实例特征建模的命名实体列表生成方法,所述方法包括以下步骤:
S1、采集实例特征数据;
S2、通过特征建模建立实例特征库;
S3、建立命名实体语料库;
S4、对实例数据进行分词并构建命名实体识别模型;
S5、利用命名实体识别模型对实例进行识别;
S6、根据实例特征库和命名实体语料库生成命名实体列表。
优选的,所述步骤S1采集实例特征数据包括以下内容:
S11、对实例数据进行采集;
S12、制定实例评判标准,并根据评判标准对采集实例数据进行分析;
S13、通过分析判断对采集实例数据进行分类筛选;
S14、将筛选后的实例数据进行分类处理。
优选的,所述步骤S2通过特征建模建立实例特征库包括以下内容:
S21、对实例特征进行预定义并建立特征库;
S22、利用特征库识别基于特征的实例;
S23、支持自定义特征并对特征库进行管理操作;
S24、对已有特征进行删除或变更操作。
优选的,所述步骤S3建立命名实体语料库用于命名实体识别模型,语料库为已标注好的字构成的库。
优选的,所述的标注采用的为BMES标注集,其中B标签表示词首,M标签表示词中,E标签表示词尾,S标签表示单字。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福建奇点时空数字科技有限公司,未经福建奇点时空数字科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910665716.6/2.html,转载请声明来源钻瓜专利网。