[发明专利]词表构建方法、电子设备及计算机可读介质有效
申请号: | 202010732672.7 | 申请日: | 2020-07-27 |
公开(公告)号: | CN111831832B | 公开(公告)日: | 2022-07-01 |
发明(设计)人: | 王桑;李成飞;杨嵩 | 申请(专利权)人: | 北京世纪好未来教育科技有限公司 |
主分类号: | G06F16/36 | 分类号: | G06F16/36;G06F40/289 |
代理公司: | 北京合智同创知识产权代理有限公司 11545 | 代理人: | 李杰;兰淑铎 |
地址: | 100086 北京市海淀区中*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 词表 构建 方法 电子设备 计算机 可读 介质 | ||
本发明实施例公开了一种词表构建方法:基于字串凝聚度,对多个第一词条进行了筛选得到多个第二词条,然后根据该筛选出的多个第二词条的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率,基于总组合概率构建目标词表,既考虑了词条在构词上的组合能力,又考虑了词条发音的组合能力,使得构建的目标词表准确率更高,构建效率也更高。
技术领域
本发明实施例涉及文本处理技术领域,尤其涉及词表构建方法、电子设备和计算机可读介质。
背景技术
词表构建是一种从现有文本语料及其它可用资源中以自动或半自动的方式获得词的过程。可见,词表构建需要以文本语料为基础,而在文本语料中,常常以字或词为一个基本单元,代表了一个语义单位。但是,现有的文本语料中,一类文本语料存在天然分隔,例如在英、法等语系中词与词之间存在空格分隔,为词表构建提供了方便;而在另一类文本语料中则没有天然分隔,例如中文、日文、韩文等,对于没有天然分隔的文本语料的词表构建则是一项很有挑战性的任务。
针对没有天然分隔的文本语料,目前的词表构建方法主要采用基于统计的方法,即:通过多种统计策略,从文本语料库中找出最相关的字串组合,根据字串组合在语料库中的统计特征进行词表构建。但是,这种根据语料库中的统计特征进行词表构建的方式,会存在在语料库中稳定出现但不符合词法的词条,导致构建的词表准确率不高。
发明内容
本发明提供了一种词表构建方案,以至少部分解决上述问题。
根据本发明实施例的第一方面,提供了一种词表构建方法,所述方法包括:从待构建词表语料中,获取满足预设规则的多个第一词条;计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,所述字串凝聚度表示所述词条符合语法规则的程度;基于所述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。
根据本发明实施例的第二方面,提供了一种电子设备,所述设备包括:一个或多个处理器;计算机可读介质,配置为存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的词表构建方法。
根据本发明实施例的第三方面,提供了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如第一方面所述的词表构建方法。
根据本发明实施例提供的方案:从待构建词表语料中,获取满足预设规则的多个第一词条;计算获得所述多个第一词条各自对应的字串凝聚度,并将所述多个第一词条中所述字串凝聚度大于第一预设阈值的多个第一词条,作为多个第二词条,其中,上述字串凝聚度表示词条符合语法规则的程度;基于上述多个第二词条中每个词条对应的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率;根据每个第二词条对应的总组合概率,从所述多个第二词条中确定总组合概率大于第二预设阈值的第二词条,根据大于第二预设阈值的第二词条构建目标词表。本方案基于字串凝聚度,对多个第一词条进行了筛选,然后根据筛选出的多个第二词条的字串组合概率和发音组合概率,获得每个第二词条对应的总组合概率,基于总组合概率构建目标词表,既考虑了词条在构词上的组合能力,又考虑了词条发音的组合能力,使得构建的目标词表准确率更高,构建效率也更高。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为根据本发明实施例一的一种词表构建方法的步骤流程图;
图2为根据本发明实施例一的一种词表构建方法的另一步骤流程图;
图3为根据本发明实施例一的一种词表构建方法的再一步骤流程图;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京世纪好未来教育科技有限公司,未经北京世纪好未来教育科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202010732672.7/2.html,转载请声明来源钻瓜专利网。