[发明专利]标签同义词的扩充方法、扩充装置、电子设备及存储介质有效
申请号: | 202010553900.4 | 申请日: | 2020-06-17 |
公开(公告)号: | CN111708900B | 公开(公告)日: | 2023-08-25 |
发明(设计)人: | 石慧江;于政;王道广;袁灿 | 申请(专利权)人: | 北京明略软件系统有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/247 |
代理公司: | 北京超成律师事务所 11646 | 代理人: | 裴素英 |
地址: | 100000 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 标签 同义词 扩充 方法 装置 电子设备 存储 介质 | ||
本申请提供了一种标签同义词的扩充方法、扩充装置、电子设备及存储介质,其中,所述扩充方法包括:首先获取一段目标文本以及针对所述目标文本的预设标签;然后从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;最后从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。本方案在知晓一段目标文本和预设标签的情况下,通过本申请提供的标签同义词的扩充方法,从目标文本中攫取其中一段文本作为预设标签的同义词,可以有效快速的从文本中提取出现有标签的标签同义词,提高了工作效率,降低了时间成本。
技术领域
本申请涉及打标签技术领域,尤其是涉及一种标签同义词的扩充方法、扩充装置、电子设备及存储介质。
背景技术
在打标签时,打标签的人并不完全知道所有的标签,他们只知道相对通俗的描述信息,进而需要通过类似的描述信息搜索出相应的标签,这类描述信息就是标签同义词。
以汽车维修案为例:通常在汽车维修时会打上两种标签,一种是故障现象,另一种是维修结果;其中故障现象是在创建案例时打的标签,维修结果是在结案时由维修工程师打上的标签;标签相对是固定的,如故障现象标签“加速无力”,其同义描述可以是“启动慢”、“加油门不走”等等;维修结果标签“更换发动机”,其同义描述可以是“发动机变更”、“换掉发动机”等等;进而挖掘出更多的与已打标签对应的同义词可以帮助打标签的人快速的搜索出相应的标签。
现有技术中,常采用人工穷举标签同义词的方法,即由专业领域的专家对某个标签进行解释和概括,虽然专家整理得到的同义词库通常具有较高的数据质量,但显而易见的是该方法成本极高,首先为保证词库质量,领域专家需要在该领域内有较长的工作年限,对该领域有深入了解;其次为保证词库广度,往往需要多位专家共同整理词库。
发明内容
有鉴于此,本申请的目的在于提供一种标签同义词的扩充方法、扩充装置、电子设备及存储介质,可以有效快速的从文本中提取出现有标签的标签同义词,提高工作效率,降低时间成本。
第一方面,本申请提供了一种标签同义词的扩充方法,所述扩充方法包括:
获取一段目标文本以及针对所述目标文本的预设标签;
从所述目标文本中,确定出多种字符串长度,以及在每种字符串长度下的多个文本标签,确定每个所述文本标签与所述预设标签之间的相似度;
从确定出的多个文本标签中确定相似度最大的文本标签为预设标签同义词。
优选地,通过以下步骤确定出多种字符串长度:
获取所述目标文本的字符串总长度值;
确定所述目标文本的字符串长度区间阵列,其中,将一个字符长度值作为所述字符串长度区间阵列的起点,所述字符串总长度值作为所述字符串长度区间阵列的终点;
以单个字符长度值为划分步长,在所述字符串长度区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
优选地,通过以下步骤确定出多种字符串长度:
获取所述预设标签的长度值和预设变量值;
在所述预设标签的长度值的基础上,增加和减少所述预设变量值,得到字符串长度值区间阵列的最大值和最小值;
以单个字符长度值为划分步长,在所述字符串长度值区间阵列内对字符串长度进行划分取值,确定多种字符串长度。
优选地,通过以下步骤确定每种字符串长度下的多个文本标签:
确定所述目标文本的至少一个起始点;
以每个字符串长度为滑动步长,分别从每个起始点开始对所述目标文本进行滑动取值,得到在每个字符串长度下的多个文本标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京明略软件系统有限公司,未经北京明略软件系统有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010553900.4/2.html,转载请声明来源钻瓜专利网。