[发明专利]文本的弱标注方法、装置、设备以及存储介质在审
申请号: | 202110587694.3 | 申请日: | 2021-05-27 |
公开(公告)号: | CN113177109A | 公开(公告)日: | 2021-07-27 |
发明(设计)人: | 黄海龙 | 申请(专利权)人: | 中国平安人寿保险股份有限公司 |
主分类号: | G06F16/33 | 分类号: | G06F16/33;G06F16/335;G06F16/35;G06F40/194;G06F40/242;G06F40/279 |
代理公司: | 深圳市明日今典知识产权代理事务所(普通合伙) 44343 | 代理人: | 王杰辉;熊成龙 |
地址: | 518000 广东省深圳市福田区福田街道益田路5033号平安*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 标注 方法 装置 设备 以及 存储 介质 | ||
1.一种文本的弱标注方法,其特征在于,包括:
获取待分类文本,并从所述待分类文本中提取出标签词;
从所述待分类文本中挑选出含有所述标签词的目标句子;
通过预测模型预测预设词库中的各个词替换所述目标句子中的所述标签词的概率;
根据各个词替换所述标签词的概率,从所述预设词库中选取第一预设个数的目标词汇;
检测各个类别的预设词典中的词汇与所述目标词汇的重合个数;
将所述重合个数大于第二预设个数对应的预设词典所在的目标类别作为所述待分类文本的弱标注。
2.如权利要求1所述的文本的弱标注方法,其特征在于,所述从所述待分类文本中提取出标签词的步骤,包括:
将所述待分类文本输入至预设的分词工具中,得到各个第一词汇以及各个所述第一词汇对应的个数;
根据所述第一词汇以及所述第一词汇所对应的个数,通过词频计算公式计算各个所述第一词汇的词频;
根据公式计算各个所述第一词汇对应的逆向文件频率;其中,D为所述待分类文本中的句子总数,{j:ti∈dj}表示所述待分类文本中包含所述第一词汇ti的句子数量,IDF表示所述逆向文件频率,ti表示第i个第一词汇,dj为第j个具有ti的句子;
根据公式W=IDF*TF计算各个第一词汇的权重;其中TF表示所述词频;
选取所述权重最大的所述第一词汇作为所述标签词。
3.如权利要求1所述的文本的弱标注方法,其特征在于,所述通过预测模型预测预设词库中的各个词替换所述目标句子中的所述标签词的概率的步骤之前,还包括:
将所述待分类文本中所有的标注删除,得到中间分类文本;
基于所述标签词从知识库中筛选出多个相近词汇;
将各个所述相近词汇依次替换所述中间分类文本中的所述标签词,并计算各个所述相近词汇替换后的语句通顺度;
将所述语句通顺度大于预设通顺度对应的所述相近词汇作为属性词汇;
根据各所述属性词汇构建所述预设词库。
4.如权利要求3所述的文本的弱标注方法,其特征在于,所述计算各个所述相近词汇替换后的语句通顺度的步骤,包括:
获取各所述相近词汇与除所述标签词外所述中间分类文本中其他的各个词汇出现的概率;
根据公式计算得到所述语句通顺度,其中i>1,i∈Z,c表示其中一个所述相近词汇,w1,w2,…,wt-1,wt,wt+1,…,wm表示所述待分类文本中各个词汇对应的值,wt表示标签词,P(c|wi)表示所述相近词汇与第wi-1个词出现的概率,P(c|wi-1)表示所述相近词汇与第wi-1个词一起出现的概率。
5.如权利要求1所述的文本的弱标注方法,其特征在于,所述选取第一预设个数的目标词汇的步骤,还包括:
检测选取的所述目标词汇以及所述标签词中是否具有相同词汇;
若有,则从选取的所述目标词汇中删除对应的相同词汇;
删除后按照各个词替换所述标签词的概率,从剩余词汇中挑选与删除的相同词汇数量的词汇,使选取的目标词汇的数目保持所述第一预设个数。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国平安人寿保险股份有限公司,未经中国平安人寿保险股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110587694.3/1.html,转载请声明来源钻瓜专利网。