[发明专利]面向文本内容的新标签实体识别方法、装置、设备及介质在审
申请号: | 202210983284.5 | 申请日: | 2022-08-16 |
公开(公告)号: | CN115879460A | 公开(公告)日: | 2023-03-31 |
发明(设计)人: | 许晟;丑晓慧 | 申请(专利权)人: | 宁波深擎信息科技有限公司;上海深擎信息科技有限公司 |
主分类号: | G06F40/289 | 分类号: | G06F40/289;G06F16/35;G06F18/214 |
代理公司: | 长沙国科天河知识产权代理有限公司 43225 | 代理人: | 段盼姣 |
地址: | 315000 浙*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 面向 文本 内容 标签 实体 识别 方法 装置 设备 介质 | ||
1.一种面向文本内容的新标签实体识别方法,其特征在于,所述方法包括:
获取人工标注的标签词库、资讯文本和资讯数据集;所述标签词库中包含特征词和特征词对应的标签;
根据所述标签词库对所述资讯文本进行数据筛选,得到训练数据集;
利用所述训练数据集和自监督方式对预先构建的BERT模型进行训练,得到预训练模型;
利用所述训练数据集构建全词遮掩语言模型任务和NTP任务对预训练模型进行再训练,得到再训练模型;
根据所述再训练模型和GlobalPointer全局指针构建候选实体识别模型;
利用所述候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签;
根据所述实体标签对人工标注的标签词库进行过滤,得到新标签词库;
根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗,得到清洗后的标签库;
利用所述清洗后的标签库对所述训练数据集进行修改和扩充,得到扩充后的训练集,利用所述扩充后的训练集对所述候选实体识别模型进行训练,得到训练好的实体识别模型;
根据所述训练好的实体识别模型对文本内容进行新标签实体识别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
根据BERT模型对所述新标签库中的所有标签所在的句子进行编码,取标签对应位置的字向量进行这四层的拼接,然后平均池化,得到所有标签的词向量;
利用Faiss index对所述所有标签的词向量进行储存,在所述Faiss index中对新标签实体识别结果进行向量化后与新标签库中所有的标签进行余弦相似度计算返回分数最高的两个标签作为第一候选同义词标签;
将所述新标签库中所有标签根据编辑距离进行bkTree构建,对新标签实体识别结果进行规范化后在所述bkTree中搜索编辑距离小于2的多个标签作为第二候选同义词标签;
根据所述第一候选同义词标签和第二候选同义词标签将新标签实体识别结果定位到标签库中的位置对所述新标签词库进行扩充。
3.根据权利要求1所述的方法,其特征在于,构建遮盖语言模型任务和NTP任务的过程包括:
对所述训练数据集进行随机全词遮盖,利用ansj分词器对遮盖后的文本进行分词,得到分词词表;所述全词指中文中的完成词汇;根据所述分词词表和标签词库构建遮盖语言模型任务;
对包含标签的句子进行向量提取,得到标签的向量表示,利用标签词库中的标签与特征词的层级关系作为标签词库的NTP任务。
4.根据权利要求1所述的方法,其特征在于,利用所述候选实体识别模型对资讯数据集进行新标签识别,对识别的新标签进行结果排序,得到文章关联度最高的实体标签,包括:
利用所述候选实体识别模型对资讯数据集进行新标签识别,对资讯数据集中的文本进行全文向量表示,得到第一向量表示;
将文本中的当前标签词全部进行遮盖处理后再进行向量表示,得到第二向量表示;
对所述第一向量表示和第二向量表示进行余弦相似度计算,得到去掉当前标签与不去掉当前标签的文章关联程度;所述文章关联程度为标签的重要度表示;
根据标签的重要度表示对资讯数据集中的所有标签进行从小到大排序,得到文章关联度最高的实体标签。
5.根据权利要求1所述的方法,其特征在于,根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对所述新标签词库进行清洗,得到清洗后的标签库,包括:
根据所述新标签词库中标签对应的特征词数量、特征词被过滤的次数、特征词加入新标签词库的天数和标签在预先设置时间内的过滤次数对新标签词库中的特征词时效值进行计算,得到特征词的时效值;
若所述特征词的时效值在预先设置的三倍时间内小于0,则将该特征词和特征词对应的标签删除,得到清洗后的标签库。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于宁波深擎信息科技有限公司;上海深擎信息科技有限公司,未经宁波深擎信息科技有限公司;上海深擎信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202210983284.5/1.html,转载请声明来源钻瓜专利网。
- 内容再现系统、内容提供方法、内容再现装置、内容提供装置、内容再现程序和内容提供程序
- 内容记录系统、内容记录方法、内容记录设备和内容接收设备
- 内容服务系统、内容服务器、内容终端及内容服务方法
- 内容分发系统、内容分发装置、内容再生终端及内容分发方法
- 内容发布、内容获取的方法、内容发布装置及内容传播系统
- 内容提供装置、内容提供方法、内容再现装置、内容再现方法
- 内容传输设备、内容传输方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容发送设备、内容发送方法、内容再现设备、内容再现方法、程序及内容分发系统
- 内容再现装置、内容再现方法、内容再现程序及内容提供系统
- 内容记录装置、内容编辑装置、内容再生装置、内容记录方法、内容编辑方法、以及内容再生方法