[发明专利]一种相似度分析的方法、装置、存储介质及电子设备在审
申请号: | 201910650440.4 | 申请日: | 2019-07-18 |
公开(公告)号: | CN110348022A | 公开(公告)日: | 2019-10-18 |
发明(设计)人: | 孟昱先 | 申请(专利权)人: | 北京香侬慧语科技有限责任公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27;G06K9/32;G06K9/62 |
代理公司: | 北京集佳知识产权代理有限公司 11227 | 代理人: | 丁曼曼 |
地址: | 100080 北京*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明提供了一种相似度分析的方法、装置、存储介质及电子设备,其中,该方法包括:获取待比较的第一文本和第二文本,以及第一分词和第二分词;确定第一分词中所包含的第一字在多种字体下的第一字图像,并确定第一字形向量;同理确定第二分词的第二字形向量;根据第一分词所包含的所有第一字的第一字形向量生成第一分词向量,同理生成第二分词向量;根据所有第一分词向量和所有第二分词向量确定第一文本与第二文本之间的相似度。通过本发明实施例提供的相似度分析的方法、装置、存储介质及电子设备,结合多种字体的字形特征,可以更加综合、全面地确定分词所包含的字形特征,在判断相似度时引入字形特征,可以提高相似度判断的准确性。 | ||
搜索关键词: | 分词 向量 相似度分析 存储介质 电子设备 字形特征 文本 相似度 字体 相似度判断 向量确定 向量生成 字图像 引入 | ||
【主权项】:
1.一种相似度分析的方法,其特征在于,包括:获取待比较的第一文本和第二文本,并确定所述第一文本的第一分词和所述第二文本的第二分词;确定所述第一分词中所包含的第一字在多种字体下分别对应的第一字图像,并确定所述第一字图像的第一字形特征,根据所述第一字的多个所述第一字图像的第一字形特征生成所述第一字的第一字形向量;确定所述第二分词中所包含的第二字在多种字体下分别对应的第二字图像,并确定所述第二字图像的第二字形特征,根据所述第二字的多个所述第二字图像的第二字形特征生成所述第二字的第二字形向量;根据所述第一分词所包含的所有第一字的第一字形向量生成所述第一分词的第一分词向量,根据所述第二分词所包含的所有第二字的第二字形向量生成所述第二分词的第二分词向量;根据所述第一文本的所有所述第一分词向量和所述第二文本的所有所述第二分词向量确定所述第一文本与所述第二文本之间的相似度。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京香侬慧语科技有限责任公司,未经北京香侬慧语科技有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910650440.4/,转载请声明来源钻瓜专利网。