[发明专利]一种实体抽取模型的训练方法、装置、设备和存储介质在审
申请号: | 202211165038.5 | 申请日: | 2022-09-20 |
公开(公告)号: | CN115470793A | 公开(公告)日: | 2022-12-13 |
发明(设计)人: | 沙九;梁家恩 | 申请(专利权)人: | 云知声智能科技股份有限公司 |
主分类号: | G06F40/295 | 分类号: | G06F40/295;G06F40/216;G06F40/284;G06F16/35;G06F16/36;G06N3/08 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100096 北京市海*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 实体 抽取 模型 训练 方法 装置 设备 存储 介质 | ||
1.一种实体抽取模型的训练方法,其特征在于,包括:
利用预设的无监督算法在样本集合中选取实体关键词;
根据选取的所述实体关键词,建立实体与标签映射表;
基于所述实体与标签映射表为目标文本标注实体标签;
利用已经被标注实体标签的目标文本训练预设的预训练语言模型,以便在训练完成之后得到实体抽取模型。
2.根据权利要求1所述的方法,其特征在于,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:
在所述样本集合的每个样本中提取关键词;
针对每个所述关键词,利用基于词袋加权的TF-IDF算法,确定所述关键词的词频以及所述关键词的逆向文件频率,并且,根据所述关键词的词频和逆向文件频率,确定所述关键词对应的权重;
针对多个所述关键词,按照权重从大到小的顺序,对多个所述关键词进行排序,获取预设第一数量的所述关键词都作为实体关键词。
3.根据权利要求1所述的方法,其特征在于,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:
针对所述样本集合中的每个所述样本执行如下步骤:
根据考虑关联网络的TextRank算法,在所述样本中抽取关键词并且为抽取得到的所述关键词构建关键词无向图;
确定所述关键词无向图中每条边的权重;其中,每条边用于连接所述关键词无向图中的两个关键词;
按照权重从大到小的顺序,对多个所述权重进行排序,获取预设第二数量的所述权重;
在获取的每个所述权重中,将每个所述权重对应的边所连接的关键词都确定为实体关键词。
4.根据权利要求3所述的方法,其特征在于,在将每个所述权重对应的边所连接的关键词都确定为实体关键词之后,还包括:
将各个所述实体关键词在所述样本中分别进行标记;
根据所述样本中的标记,查询相邻的所述实体关键词,将所述相邻的所述实体关键词组成的词组也作为实体关键词。
5.根据权利要求1所述的方法,其特征在于,所述利用预设的无监督算法在样本集合中选取实体关键词,包括:
针对所述样本集合中的每个所述样本执行如下步骤:
根据结合语义编码的KeyBert算法,在所述样本中提取文档嵌入;
基于N-Gram方式,在所述文档嵌入中提取词向量;
利用预设的相似度算法,对提取到的所述词向量进行相似度聚合处理,得到至少一个词向量集合;
将包含词向量数量最多的词向量集合中的词向量作为实体关键词。
6.根据权利要求1所述的方法,其特征在于,
所述利用预设的无监督算法在样本集合中选取实体关键词,包括:
利用预设的多种无监督算法分别在样本集合中选取实体关键词;其中,预先设置多个文本类别,所述样本集合中的每个样本对应一个文本类别;
所述根据选取的所述实体关键词,建立实体与标签映射表,包括:
在多种无监督算法分别选取的实体关键词中,获取实体关键词的并集;
在所述实体关键词的并集中,针对每个实体关键词,确定所述实体关键词在每个文本类别的出现占比,并在所述出现占比大于预设的占比阈值时,将所述实体关键词确定为所述出现占比对应的文本类别中的命名实体;
针对每个文本类别,为所述文本类别中的命名实体对应设置的实体标签,并形成所述文本类别对应的实体与标签映射表。
7.根据权利要求1所述的方法,其特征在于,所述实体抽取模型用于:
接收文本字词序列;
对所述文本字词序列中的各个字词进行顺序预测;
如果当前位置的字词为命名实体,则输出所述命名实体以及所述命名实体的实体标签;反之,则输出所述命名实体。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于云知声智能科技股份有限公司,未经云知声智能科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211165038.5/1.html,转载请声明来源钻瓜专利网。