[发明专利]一种动态添加热词的方法、装置及可读存储介质有效

申请号：	201910037030.2	申请日：	2019-01-15
公开（公告）号：	CN109885812B	公开（公告）日：	2021-02-19
发明（设计）人：	吴帅;李健;张连毅;武卫东	申请（专利权）人：	北京捷通华声科技股份有限公司
主分类号：	G06F40/242	分类号：	G06F40/242;G06F40/157
代理公司：	北京润泽恒知识产权代理有限公司 11319	代理人：	莎日娜
地址：	100193 北京市海淀区东北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种动态添加方法装置可读存储介质
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种动态添加热词的方法、装置及可读存储介质。所述方法包括：载入需要添加的热词文本数据和状态转移图；根据所述状态转移图的可输出单元，对所述热词文本数据进行拆分，得到多个文本单元；针对所述多个文本单元中的每个文本单元，根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径，得到多个路径；将所述多个路径组合成新路径；对所述新路径中的每条边进行权重赋值。现有添加热词的方法一种需要重新训练语言模型完成热词添加，耗费时间和空间资源，另一种通过调整输出结果来还原热词出现位置，添加精度不高。本发明公开的方法直接在语言模型的动态转移图上修改，既节省了时间和空间资源，又能保证热词添加精度。

技术领域

本发明涉及自然语言处理技术领域，具体地涉及一种动态添加热词的方法方法、装置及可读存储介质。

背景技术

如今互联网上有大量的数据需要转化成文本，供人类存储或阅读，这就需要计算机解析自然语言文本。为了解析自然语言文本，我们需要经过大量的语料训练生成语言模型，而语言模型又不方便直接调用，通常为了快速读取语言模型，将其转化为状态转移图格式。现代社会飞速发展，每天都新增新词、外来语、流行语或专业术语，这些词汇统称为热词。为了保持语言模型与时俱进，因而需要不断地添加热词。现有的方法通常有两种，一种是增加热词相关语料，利用增加后的语料来训练出新的语言模型，再转化为动态转移图格式。另一种是在在解码结果上做修正，根据输出结果，通过判断是否有热词误输出进行调整。第一种方法需要不断训练新的语言模型以保证热词的添加，耗费大量的计算时间和空间资源。第二种方法由于在文本的结果上做修改，丢失了大量的输入信息，故而添加精度不高。

发明内容

本发明提供了一种动态添加热词的方法、装置及可读存储介质，以实现在使用语言模型解码的过程中快速添加热词的工作。

本发明实施例第一方面提供了一种动态添加热词的方法，所述方法包括：

载入需要添加的热词文本数据和状态转移图；

根据所述状态转移图的可输出单元，对所述热词文本数据进行拆分，得到多个文本单元；

针对所述多个文本单元中的每个文本单元，根据所述状态转移图的输出字典在所述状态转移图中搜索该文本单元的对应路径，得到多个路径；

将所述多个路径组合成新路径；

对所述新路径中的每条边的权重进行赋值。

可选的，根据所述状态转移图的可输出单元，对所述热词文本进行拆分，得到多个文本单元，包括：

调出所述状态转移图的输出字典；

将所述热词文本与所述输出字典中的可输出单元进行匹配；

根据匹配结果，将所述热词文本数据进行最小拆分，得到所述多个文本单元。