[发明专利]新词发现方法、装置、设备以及存储介质在审

申请号：	202111229387.4	申请日：	2021-10-21
公开（公告）号：	CN114330296A	公开（公告）日：	2022-04-12
发明（设计）人：	刘刚	申请（专利权）人：	腾讯科技（深圳）有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/30;G06F40/289;G06F16/33;G06F16/35
代理公司：	北京市立方律师事务所 11330	代理人：	张筱宁
地址：	518000 广东省深圳***	国省代码：	广东;44
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	新词发现方法装置设备以及存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种新词发现方法，其特征在于，所述方法包括：

确定待预测语句中各字对应的初始特征序列，将所述初始特征序列输入语言模型得到所述待预测语句中各字对应的预测特征序列，基于所述预测特征序列确定所述待预测语句中的新词；

其中，所述语言模型是基于以下方式训练得到的：

获取训练样本集，所述训练样本集中包括多个样本语句；

对于每一所述样本语句，确定该样本语句的初始词序列，将所述初始词序列中的待预测词替换为预设掩码字符，得到第一词序列，确定该样本语句的初始字序列，将所述初始字序列中对应于所述待预测词的待预测字替换为所述预设掩码字符，得到第一字序列，基于该样本语句的第一词序列和第一字序列，确定该样本语句对应的样本特征序列；

对于每一样本语句，将该样本语句对应的样本特征序列输入初始语言模型，得到该样本语句中各字对应的样本预测特征序列，基于所述样本预测特征序列确定该样本语句中待预测词对应的预测词；

基于各所述样本语句中待预测词和对应的预测词，确定训练损失值，根据所述训练损失值和所述训练样本集对所述初始语言模型进行迭代训练，直至所述训练损失值符合训练结束条件时，将训练结束时的模型确定为所述语言模型。

2.根据权利要求1所述的方法，其特征在于，对于每一所述样本语句，所述基于该样本语句的第一词序列和第一字序列，确定该样本语句中各字对应的样本特征序列，包括：

将该样本语句的第一词序列中各词和预设掩码字符分别进行编码，得到所述第一词序列中各词对应的初始词特征；

将该样本语句的第一字序列中各字和预设掩码字符分别进行编码，得到所述第一字序列中各字对应的初始字特征；

基于所述第一词序列中各词对应的初始词特征和所述第一字序列中各字对应的初始字特征，确定该样本语句对应的样本特征序列。

3.根据权利要求2所述的方法，其特征在于，对于每一所述样本语句，所述基于所述第一词序列中各词对应的初始词特征和所述第一字序列中各字对应的初始字特征，确定该样本语句对应的样本特征序列，包括：

对于所述第一字序列中的每一字，确定所述第一词序列中该字对应的目标词的目标初始词特征，基于该字对应的初始字特征和所述目标初始词特征，确定该字对应的融合特征；

基于所述第一字序列中各字对应的融合特征，确定该样本语句对应的样本特征序列。

4.根据权利要求1所述的方法，其特征在于，所述基于所述预测特征序列确定所述待预测语句中的新词，包括：

基于所述预测特征序列，确定所述待预测语句中各字的词语标注信息；

基于所述词语标注信息，确定所述待预测语句中的候选词；