[发明专利]面向文本内容的新标签实体识别方法、装置、设备及介质在审
申请号: | 202210983284.5 | 申请日: | 2022-08-16 |
公开(公告)号: | CN115879460A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 许晟;丑晓慧 | 申请(专利权)人: | 宁波深擎信息科技有限公司;上海深擎信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F18/214 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 段盼姣 |
地址: | 315000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 文本 内容 标签 实体 识别 方法 装置 设备 介质 | ||
本申请涉及一种面向文本内容的新标签实体识别方法、装置、设备及介质。所述方法包括:利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练,根据再训练模型和GlobalPointer构建候选实体识别模型,利用候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签;根据实体标签对人工标注的标签词库进行过滤,得到新标签词库,再对新标签词库进行清洗,利用清洗后的标签库对训练数据集进行修改和扩充,利用扩充后的训练集对候选实体识别模型进行训练,根据训练好的实体识别模型对文本内容进行新标签实体识别。采用本方法能够提高新标签实体识别准确率。
技术领域
本申请涉及数据处理技术领域,特别是涉及一种面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质。
背景技术
对于一个标签系统来说标签库的完善至关重要,这里标签系统指的是对于输入的信息载体(这里指文章)输出一定数量的能总结出的词汇(关键词)或归类于的类别,这些类别称之为标签,能根据关键词总结出标签的这些关键词称之为特征词,打出标签的系统称之为标签系统。但是标签词和特征词的发现不能仅仅靠人工积累和发现,所以需要技术上进行自动标签发现。
标签发现本质上接近于中文自然语言处理中的新词发现问题,但是又不能完全等同于新词发现,因为有些标签词可能不是新词而是已经存在的词汇。传统的方法中新词发现基于互信息比较常用的方式是基于Matrix67中提到的统计方式进行的无监督新词发现。采用ngram(n元分词)进行词汇召回,即根据n元分词进行全量枚举,通过计算词汇的内部凝固度(PMI)和词汇的自由度(左右熵)为当前词汇打分。通过分数进行排序召回。其中内部凝固度是指当前词汇的中各个字在一起出现的概率大小,代表了这个几个字经常作为一个整体出现,比较有可能是一个词,而词汇的自由度是指这几个字组成的团体的左右两边出现的字是否足够丰富,比如说“瓶酱油”这三个字组成的团体出现的频率足够高即它的内部凝固度足够高,但是这个团体左边出现的字的丰富度非常低,经常出现的只有“几”,“一”,“两”等字,说明这三个字组成的团体左侧出现字的丰富度不够高,即该词汇的自由度不够高。因此对于当前词汇的内部凝固度和外部自由度做出权衡以后得到该词汇的打分分数,分数由高到低即可以筛选出更有可能出现的新词,然后过滤去掉已有的词汇得到最后的结果。
然而,目前的基于无监督语料的新标签发现方法存在以下缺点:比较依赖于大数量的文本输入,因为该方法是基于统计方法,需要对全量的输入数据来进行枚举和计算频率,进而计算词汇凝固度和自由度。所以当输入为单篇文章时无法得到有效的结果,对于字数过长和带有英文字符的词(标签)很难进行发现,这是由于词语的召回是基于n元分词的枚举,如果n过大会导致效率过低,由于该方法是全量召回然后排序配合过滤来得到结果,所以这是一个去除错误候选词的方法,这样的方法就非常依赖于已有词汇表的完善程度,并且得到的结果中可用词汇的比例会非常低,通常即使是前100的结果可用率也会低于50%。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高新标签实体识别准确率的面向文本内容的新标签实体识别方法、装置、计算机设备和存储介质。
一种面向文本内容的新标签实体识别方法,所述方法包括:
获取人工标注的标签词库、资讯文本和资讯数据集;标签词库中包含特征词和特征词对应的标签;
根据标签词库对资讯文本进行数据筛选,得到训练数据集;
利用训练数据集和自监督方式对预先构建的BERT模型进行训练,得到预训练模型;
利用训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练,得到再训练模型;
根据再训练模型和GlobalPointer全局指针构建候选实体识别模型;
利用候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波深擎信息科技有限公司;上海深擎信息科技有限公司,未经宁波深擎信息科技有限公司;上海深擎信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210983284.5/2.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法