[发明专利]用于处理文档的方法、装置、设备和存储介质在审
申请号: | 201910194822.0 | 申请日: | 2019-03-14 |
公开(公告)号: | CN109857942A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 李健 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;李峥宇 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文档 词语 存储介质 概率分布 关联 方式确定 关联关系 文档处理 文档描述 文档生成 | ||
1.一种文档处理方法,包括:
获取一组文档中包括一组词语;
基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;
基于指定一组文档的目标方面的关键字以及所述一组伪文档,确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布;以及
基于所述概率分布,确定所述一组文档所涉及的与所述目标方面相关联的至少一个主题。
2.根据权利要求1所述的方法,其中基于所述一组文档生成所述一组伪文档包括:
生成所述一组文档中的与所述一组词语中的第一词语相关联的第一伪文档,包括:
基于所述第一词语与所述一组词语中的多个其他词语之间的共同出现,确定所述第一词语与所述多个其他词语之间的共同出现频率;以及
基于所述共同出现频率建立所述一组伪文档中的与所述第一词语相关联的所述第一伪文档。
3.根据权利要求2所述的方法,其中确定所述共同出现频率包括:
基于预定长度的滑动窗口来扫描所述一组文档中的各个文档;以及
响应于确定所述第一词语在所述滑动窗口的当前范围内与所述多个其他词语中的词语共同出现,增加所述共同出现频率;以及
将所述滑动窗口移动预定步长。
4.根据权利要求2所述的方法,其中基于所述共同出现频率生成所述一组伪文档中的与所述第一词语相关联的所述第一伪文档包括:
向所述第一伪文档添加所述第一词语以作为所述第一伪文档的文档头;以及
向所述第一伪文档添加与所述第一词语共同出现的第二词语以作为所述第一伪文档的文档体。
5.根据权利要求4所述的方法,其中向所述第一伪文档添加与所述第一词语共同出现的第二词语包括:
基于所述共同出现频率,向所述第一伪文档中添加所述第二词语。
6.根据权利要求4所述的方法,其中所述文档体中包括的词语是无序的。
7.根据权利要求1所述的方法,其中确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布包括:
获取描述词语与关键字之间的关联的概率分布模型;以及
基于所述一组伪文档中的一组词语和所述关键字训练所述概率分布模型,以获取所述一组词语中的各个词语与所述关键字相关联的概率分布。
8.根据权利要求7所述的方法,其中获取所述概率分布进一步包括:
获取与所述目标方面相关联的至少一个主题的数量;以及
基于所述数量和所述概率分布模型,获取所述数量的至少一个概率分布。
9.根据权利要求1所述的方法,其中确定所述一组文档所涉及的与所述指定方面相关联的至少一个主题包括:
基于所述概率分布,将所述多个词语进行排序;以及
基于排序的所述多个词语,标识所述至少一个主题中的主题。
10.根据权利要求1所述的方法,其中获取一组文档中包括一组词语包括:
针对所述一组文档中的文档执行文本处理,以从所述一组文档中提取具有语义的词语以作为所述一组词语。
11.一种文档处理装置,包括:
获取模块,配置用于获取一组文档中包括一组词语;
生成模块,配置用于基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;
确定模块,配置用于基于指定一组文档的目标方面的关键字以及所述一组伪文档,确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布;以及
主题模块,配置用于基于所述概率分布,确定所述一组文档所涉及的与所述目标方面相关联的至少一个主题。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910194822.0/1.html,转载请声明来源钻瓜专利网。