[发明专利]一种基于LCS和TF-IDF的相似字符串确定方法及装置在审
申请号: | 202011027205.0 | 申请日: | 2020-09-25 |
公开(公告)号: | CN112185573A | 公开(公告)日: | 2021-01-05 |
发明(设计)人: | 马素芬;魏博;骆佳俊;许永超;李力行;凌少平 | 申请(专利权)人: | 志诺维思(北京)基因科技有限公司 |
主分类号: | G16H50/70 | 分类号: | G16H50/70;G06F40/247;G06F16/903 |
代理公司: | 北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 | 代理人: | 荣颖佳 |
地址: | 102200 北京市昌平区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 lcs tf idf 相似 字符串 确定 方法 装置 | ||
1.一种基于LCS和TF-IDF的相似字符串确定方法,其特征在于,包括:
计算同义词字典中各同义词的TF-IDF值;
从所述同义词字典中查找待归一的字符串对应的标准写法信息;
若未查找到待归一的字符串对应的标准写法信息,则计算该字符串与相应同义词的最长公共子序列长度和距离;
计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
2.根据权利要求1所述的方法,其特征在于,通过以下步骤获取同义词字典:
获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
3.根据权利要求1所述的方法,其特征在于,通过以下步骤计算同义词字典中各同义词的TF-IDF值:
基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
4.根据权利要求1所述的方法,其特征在于,还包括:
若查找到待归一的字符串对应的标准写法信息,则将该标准写法信息确定为目标标准写法信息。
5.一种基于LCS和TF-IDF的相似字符串确定装置,其特征在于,包括:
第一计算模块,用于计算同义词字典中各同义词的TF-IDF值;
查找模块,用于从所述同义词字典中查找待归一的字符串对应的标准写法信息;
第二计算模块,用于在未查找到待归一的字符串对应的标准写法信息时,计算该字符串与相应同义词的最长公共子序列长度和距离;
第三计算模块,用于计算待归一的字符串与相应同义词的非公共子序列中包含的所有字符的TF-IDF值的总和,得到TF-IDF值总和;
排序模块,用于对待归一的字符串的相应同义词按照最长公共子序列长度进行降序排列,得到第一排序结果,对所述第一排序结果按照最长公共子序列距离和TF-IDF值总和的和进行升序排列,得到第二排序结果,返回所述第二排序结果中第一个字符串对应的目标标准写法信息;
确定模块,用于基于待归一的字符串和目标标准写法信息,确定归一后的字符串,从而得到待归一的字符串的相似字符串。
6.根据权利要求5所述的装置,其特征在于,还包括获取模块,所述获取模块包括:
获取单元,用于获取归一推理文件,所述归一推理文件包括同义词和相关父子类关系文件;
第一确定单元,用于根据所述归一推理文件确定同义词字典,所述同义词字典包括各种疾病的各指标的各标准写法信息。
7.根据权利要求5所述的装置,其特征在于,所述第一计算模块包括:
第二确定单元,用于基于目标字符在当前语料库中的目标字符串中出现的次数和所有目标字符在当前语料库中的目标字符串中出现的总次数,确定目标字符在当前字符串中出现的频率;
第三确定单元,用于基于当前同义词语料库中字符串总例数和包含目标字符的字符串个数,确定目标字符在相应同义词语料数据库中的逆向文件频率;
第四确定单元,用于基于目标字符在当前字符串中出现的频率和相应同义词语料数据库中的逆向文件频率,确定该字符在当前字符串的TF-IDF值。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于志诺维思(北京)基因科技有限公司,未经志诺维思(北京)基因科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011027205.0/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于环网柜肘型头温度在线监测系统
- 下一篇:一种电力系统安全评价的检测系统