[发明专利]用于处理文档的方法、装置、设备和存储介质在审
申请号: | 201910194822.0 | 申请日: | 2019-03-14 |
公开(公告)号: | CN109857942A | 公开(公告)日: | 2019-06-07 |
发明(设计)人: | 李健 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/9535 | 分类号: | G06F16/9535;G06F16/33 |
代理公司: | 北京市金杜律师事务所 11256 | 代理人: | 李辉;李峥宇 |
地址: | 100094 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本公开涉及用于处理文档的方法、装置、设备和存储介质。根据一个示例性实现方式,提供了一种文档处理方法。在该方法中,确定一组文档中包括一组词语。基于一组文档生成一组伪文档,一组伪文档中的伪文档描述一组词语中的词语与一组词语中的其他词语之间的关联关系。基于指定一组文档的目标方面的关键字以及一组伪文档,确定一组词语中的各个词语与关键字之间的关联的概率分布。基于概率分布,确定一组文档所涉及的与目标方面相关联的至少一个主题。采用上述实现方式,可以以更为准确的方式确定由关键字指定的目标方面下的至少一个主题。 | ||
搜索关键词: | 文档 词语 存储介质 概率分布 关联 方式确定 关联关系 文档处理 文档描述 文档生成 | ||
【主权项】:
1.一种文档处理方法,包括:获取一组文档中包括一组词语;基于所述一组文档生成一组伪文档,所述一组伪文档中的伪文档描述所述一组词语中的词语与所述一组词语中的其他词语之间的关联关系;基于指定一组文档的目标方面的关键字以及所述一组伪文档,确定所述一组词语中的各个词语与所述关键字之间的关联的概率分布;以及基于所述概率分布,确定所述一组文档所涉及的与所述目标方面相关联的至少一个主题。
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910194822.0/,转载请声明来源钻瓜专利网。