[发明专利]用于输出信息的方法和装置在审
申请号: | 201711137979.7 | 申请日: | 2017-11-16 |
公开(公告)号: | CN107832298A | 公开(公告)日: | 2018-03-23 |
发明(设计)人: | 连荣忠;姜迪;蒋佳军;陈泽裕;何径舟 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京英赛嘉华知识产权代理有限责任公司11204 | 代理人: | 王达佐,马晓亚 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 输出 信息 方法 装置 | ||
技术领域
本申请实施例涉及计算机技术领域,具体涉及自然语言处理技术领域,尤其涉及用于输出信息的方法和装置。
背景技术
主题模型是对文字隐含主题进行建模的方法,它克服了传统信息检索中文档相似度计算方法的缺点,并且能够在海量数据中自动寻找文字间的语义主题。由于主题模型可以广泛应用于文本搜索、广告推荐等领域,因此,近些年来各大互联网公司开始对主题模型相关内容进行探索与研究。
发明内容
本申请实施例提出了一种用于输出信息的方法和装置。
第一方面,本申请实施例提供了一种用于输出信息的方法,该方法包括:接收测试文本;将测试文本进行分词得到测试词语,并生成至少一个包含测试词语的测试词语组;针对至少一个测试词语组中的每个测试词语组,将该测试词语组输入预先训练的主题模型中,得到该测试词语组所属的主题以及主题的概率分布,其中,主题模型用于表征词语组与词语组所属的主题以及主题的概率分布的对应关系;基于每个测试词语组所属的主题以及主题的概率分布,确定测试文本所属的主题以及主题的概率分布,并输出包含测试文本所属的主题以及主题的概率分布的信息。
在一些实施例中,主题模型是通过如下步骤训练得到:获取训练文本和训练信息,其中,训练信息包括训练时所用词语组中所包含的词语的数量;对训练文本进行分词得到至少一个训练词语,并生成至少一个包含数量个训练词语的训练词语组;对于至少一个训练词语中每个训练词语,获取该训练词语所属的主题以及主题的概率分布;针对生成的每个训练词语组,基于该训练词语组所包含的至少一个训练词语中的每个训练词语所属的主题以及主题的概率分布,确定该训练词语组所属的主题以及主题的概率分布;利用机器学习方法,将至少一个训练词语组作为输入,将至少一个训练词语组中每个训练词语组所属的主题以及主题的概率分布作为输出,训练得到主题模型。
在一些实施例中,获取该训练词语所属的主题以及主题的概率分布,包括:向目标参数服务器发送获取该训练词语所属的主题以及主题的概率分布的请求,其中,目标参数服务器中存储有词语与词语所属的主题以及主题的概率分布的对应关系;接收目标参数服务器返回的该训练词语所属的主题以及主题的概率分布。
在一些实施例中,该方法还包括:针对至少一个测试词语组中的每个测试词语组,基于该测试词语组所属的主题以及主题的概率分布,对该测试词语组所包含的每个测试词语所属的主题以及主题的概率分布进行更新;向目标参数服务器发送更新后的每个测试词语所属的主题以及主题的概率分布,以供目标参数服务器对更新后的每个测试词语所属的主题以及主题的概率分布进行存储。
在一些实施例中,确定测试文本所属的主题以及主题的概率分布,包括:针对至少一个测试词语组中的每个测试词语组,将该测试词语组所属的主题确定为测试文本所属的主题;针对测试文本所属的每个主题,将至少一个测试词语组属于该主题的概率相加,并将相加得到的和除以至少一个测试词语组中测试词语组的数量的商确定为测试文本属于该主题的概率。
第二方面,本申请实施例提供了一种用于输出信息的装置,该装置包括:接收单元,配置用于接收测试文本;生成单元,配置用于将测试文本进行分词得到测试词语,并生成至少一个包含测试词语的测试词语组;输入单元,配置用于针对至少一个测试词语组中的每个测试词语组,将该测试词语组输入预先训练的主题模型中,得到该测试词语组所属的主题以及主题的概率分布,其中,主题模型用于表征词语组与词语组所属的主题以及主题的概率分布的对应关系;输出单元,配置用于基于每个测试词语组所属的主题以及主题的概率分布,确定测试文本所属的主题以及主题的概率分布,并输出包含测试文本所属的主题以及主题的概率分布的信息。
在一些实施例中,该装置还包括用于训练主题模型的训练单元,该训练单元配置用于:获取训练文本和训练信息,其中,训练信息包括训练时所用词语组中所包含的词语的数量;对训练文本进行分词得到至少一个训练词语,并生成至少一个包含数量个训练词语的训练词语组;对于至少一个训练词语中每个训练词语,获取该训练词语所属的主题以及主题的概率分布;针对生成的每个训练词语组,基于该训练词语组所包含的至少一个训练词语中的每个训练词语所属的主题以及主题的概率分布,确定该训练词语组所属的主题以及主题的概率分布;利用机器学习方法,将至少一个训练词语组作为输入,将至少一个训练词语组中每个训练词语组所属的主题以及主题的概率分布作为输出,训练得到主题模型。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201711137979.7/2.html,转载请声明来源钻瓜专利网。
- 信息记录介质、信息记录方法、信息记录设备、信息再现方法和信息再现设备
- 信息记录装置、信息记录方法、信息记录介质、信息复制装置和信息复制方法
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录装置、信息再现装置、信息记录方法、信息再现方法、信息记录程序、信息再现程序、以及信息记录介质
- 信息记录设备、信息重放设备、信息记录方法、信息重放方法、以及信息记录介质
- 信息存储介质、信息记录方法、信息重放方法、信息记录设备、以及信息重放设备
- 信息存储介质、信息记录方法、信息回放方法、信息记录设备和信息回放设备
- 信息记录介质、信息记录方法、信息记录装置、信息再现方法和信息再现装置
- 信息终端,信息终端的信息呈现方法和信息呈现程序
- 信息创建、信息发送方法及信息创建、信息发送装置