[发明专利]一种动态添加热词的方法、装置及可读存储介质有效
申请号: | 201910037030.2 | 申请日: | 2019-01-15 |
公开(公告)号: | CN109885812B | 公开(公告)日: | 2021-02-19 |
发明(设计)人: | 吴帅;李健;张连毅;武卫东 | 申请(专利权)人: | 北京捷通华声科技股份有限公司 |
主分类号: | G06F40/242 | 分类号: | G06F40/242;G06F40/157 |
代理公司: | 北京润泽恒知识产权代理有限公司 11319 | 代理人: | 莎日娜 |
地址: | 100193 北京市海淀区东北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 动态 添加 方法 装置 可读 存储 介质 | ||
本发明公开了一种动态添加热词的方法、装置及可读存储介质。所述方法包括:载入需要添加的热词文本数据和状态转移图;根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;将所述多个路径组合成新路径;对所述新路径中的每条边进行权重赋值。现有添加热词的方法一种需要重新训练语言模型完成热词添加,耗费时间和空间资源,另一种通过调整输出结果来还原热词出现位置,添加精度不高。本发明公开的方法直接在语言模型的动态转移图上修改,既节省了时间和空间资源,又能保证热词添加精度。
技术领域
本发明涉及自然语言处理技术领域,具体地涉及一种动态添加热词的方法方法、装置及可读存储介质。
背景技术
如今互联网上有大量的数据需要转化成文本,供人类存储或阅读,这就需要计算机解析自然语言文本。为了解析自然语言文本,我们需要经过大量的语料训练生成语言模型,而语言模型又不方便直接调用,通常为了快速读取语言模型,将其转化为状态转移图格式。现代社会飞速发展,每天都新增新词、外来语、流行语或专业术语,这些词汇统称为热词。为了保持语言模型与时俱进,因而需要不断地添加热词。现有的方法通常有两种,一种是增加热词相关语料,利用增加后的语料来训练出新的语言模型,再转化为动态转移图格式。另一种是在在解码结果上做修正,根据输出结果,通过判断是否有热词误输出进行调整。第一种方法需要不断训练新的语言模型以保证热词的添加,耗费大量的计算时间和空间资源。第二种方法由于在文本的结果上做修改,丢失了大量的输入信息,故而添加精度不高。
发明内容
本发明提供了一种动态添加热词的方法、装置及可读存储介质,以实现在使用语言模型解码的过程中快速添加热词的工作。
本发明实施例第一方面提供了一种动态添加热词的方法,所述方法包括:
载入需要添加的热词文本数据和状态转移图;
根据所述状态转移图的可输出单元,对所述热词文本数据进行拆分,得到多个文本单元;
针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径,得到多个路径;
将所述多个路径组合成新路径;
对所述新路径中的每条边的权重进行赋值。
可选的,根据所述状态转移图的可输出单元,对所述热词文本进行拆分,得到多个文本单元,包括:
调出所述状态转移图的输出字典;
将所述热词文本与所述输出字典中的可输出单元进行匹配;
根据匹配结果,将所述热词文本数据进行最小拆分,得到所述多个文本单元。
可选的,针对所述多个文本单元中的每个文本单元,根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元对应路径,得到多个路径,包括:
针对所述多个文本单元中的每个文本单元,执行以下步骤:
找到该文本单元在所述输出字典中对应的输出索引;
根据所述输出索引,检索该文本单元在所述状态转移图中相应的边和结点;
根据该文本单元的对应边,对所述对应边的前向进行搜索,得到该文本单元对应路径的起始结点;
根据该文本单元的对应边,对所述对应边的后向进行搜索,得到该文本单元对应路径的终止结点;
根据搜索到的该文本单元的对应边的起始点和终止点,确定该文本单元对应的路径。
可选的,将所述多个路径组合成新路径,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京捷通华声科技股份有限公司,未经北京捷通华声科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910037030.2/2.html,转载请声明来源钻瓜专利网。