[发明专利]词表构建方法、电子设备及计算机可读介质有效
申请号: | 202010732672.7 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111831832B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 王桑;李成飞;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词表 构建 方法 电子设备 计算机 可读 介质 | ||
1.一种词表构建方法,其特征在于,所述方法包括:
从待构建词表语料中,获取满足预设规则的多个第一词条;
计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,所述字串凝聚度表示所述词条符合语法规则的程度;
基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;
根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。
2.根据权利要求1所述的方法,其特征在于,所述计算获得所述多个第一词条各自对应的字串凝聚度,包括:
计算获得所述多个第一词条中每个词条在所述待构建词表语料中出现的第一概率,以及每个词条中的字符在所述待构建词表语料中出现的第二概率;基于所述第一概率和所述第二概率,获得所述多个第一词条各自对应的字串凝聚度。
3.根据权利要求2所述的方法,其特征在于,所述基于所述第一概率和所述第二概率,获得所述多个第一词条各自对应的字串凝聚度,包括:
基于所述多个第一词条中每个词条的第一概率和多个所述第二概率乘积的比值,获得所述多个第一词条各自对应的字串凝聚度。
4.根据权利要求3所述的方法,其特征在于,所述基于所述多个第一词条中每个词条的第一概率和多个所述第二概率乘积的比值,获得所述多个第一词条各自对应的字串凝聚度,包括:
利用公式计算获得所述多个第一词条中每个词条对应的字串凝聚度;其中,I(S1)表示词条S1=c1,c2···cn对应的字串凝聚度,p(c1),p(c2)...p(cn)表示所述词条S1中的每个字符c1,c2...cn分别在所述待构建词表语料中出现的概率,p(c1,c2...cn)表示所述词条S1=c1,c2···cn在所述待构建词表语料中出现的概率,n为正整数,表示所述词条S1=c1,c2···cn中的字符数量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率,包括:
计算获得所述多个第二词条中每个词条对应的字串组合概率;以及,计算获得所述多个第二词条中每个词条对应的发音组合概率;
将所述多个第二词条中每个词条对应的所述字串组合概率以及所述发音组合概率分别进行加权求和,获得每个第二词条对应的总组合概率。
6.根据权利要求5所述的方法,其特征在于,所述计算获得所述多个第二词条中每个词条对应的字串组合概率,包括:
将所述多个第二词条中每个词条符合词法组合规则的概率进行开n次方计算,得到所述多个第二词条中每个词条对应的字串组合概率,n为正整数,表示当前词条中的字符数量。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010732672.7/1.html,转载请声明来源钻瓜专利网。