[发明专利]快速生成标准语料的方法和系统有效
申请号: | 201910768046.0 | 申请日: | 2019-08-20 |
公开(公告)号: | CN110489754B | 公开(公告)日: | 2023-01-03 |
发明(设计)人: | 刘云芳;江敏 | 申请(专利权)人: | 杭州数澜科技有限公司 |
主分类号: | G06F40/279 | 分类号: | G06F40/279;G06N20/00 |
代理公司: | 北京市联德律师事务所 11361 | 代理人: | 黄大正 |
地址: | 311121 浙江省杭州市*** | 国省代码: | 浙江;33 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 快速 生成 标准 语料 方法 系统 | ||
1.一种在语句中查找与规范信息对应的信息的方法,包括:
(1)利用计算机将所述语句的首个文字的位置设置为起始位置;
(2)利用计算机,按照预定规则并且根据文字间的相似度计算规则,确定所述语句从所述起始位置开始是否存在与所述规范信息对应的信息;以及
(3)利用计算机,如果确定所述语句从所述起始位置开始存在与所述规范信息对应的信息,则结束所述查找操作,否则在所述语句中将所述起始位置后移一个文字,然后执行步骤(2)。
2.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字都相同或具有或超过预定的相似度,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。
3.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始并且在所述规范信息的全长的预定比例内的每个文字都相同或具有或超过预定的相似度,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。
4.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度大于或等于所述规范信息的长度,并且所述语句从所述起始位置开始的每个文字与所述规范信息从头开始的每个文字彼此之间连续低于预定的相似度的文字的数量低于预定数量,则确定所述语句从所述起始位置起存在与所述规范信息对应的信息。
5.根据权利要求1所述的方法,其中所述预定规则是:
如果所述语句从所述起始位置开始的剩余长度小于所述规范信息的长度,则确定所述语句从所述起始位置起不存在与所述规范信息对应的信息。
6.根据权利要求1所述的方法,其中,所述文字间的相似度计算规则利用汉语拼音来计算所述文字间的相似度。
7.根据权利要求6所述的方法,其中,所述文字间的相似度计算规则包括如下步骤来计算第一文字和第二文字之间的相似度:
(a)利用计算机将所述第一文字和所述第二文字分别转化为汉语拼音;
(b)利用计算机将所述汉语拼音拆分为声母和韵母;和
(c)利用计算机计算所述第一文字和所述第二文字的声母和韵母的分别的相似度,并根据所述声母和所述韵母的各自的权重值,计算所述第一文字和第二文字之间的相似度。
8.根据权利要求7所述的方法,其中所述计算所述第一文字和所述第二文字的声母或韵母的分别的相似度按照如下公式进行:
其中,A、B分别表示所述第一文字和第二文字的汉语拼音中的声母或韵母的集合。
9.根据权利要求7所述的方法,其中将所述汉语拼音拆分为声母和韵母的操作包括:
利用声母表,从所述汉语拼音的起始字母开始进行前向拆分,获得所述声母;以及
利用韵母表,从所述汉语拼音的最后字母开始进行后向拆分,获得所述韵母。
10.根据权利要求9所述的方法,其中将所述汉语拼音拆分为声母和韵母的操作还包括:
将所述前向拆分步骤拆分出的声母和所述后向拆分步骤拆分出的韵母从所述汉语拼音中删除;以及
如果所述删除后所述汉语拼音剩余的内容为空则确定该汉语拼音拆分完毕,否则判断所述剩余的部分是否属于韵母表中的某个韵母,并且如果是则将所述剩余的部分保留为韵母。
11.根据权利要求1所述的方法,其中,所述文字间的相似度计算规则利用字形来计算第一文字与第二文字的所述相似度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于杭州数澜科技有限公司,未经杭州数澜科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910768046.0/1.html,转载请声明来源钻瓜专利网。