[发明专利]自动生成文章的方法、装置、设备及存储介质有效
申请号: | 201811536360.8 | 申请日: | 2018-12-14 |
公开(公告)号: | CN109657043B | 公开(公告)日: | 2022-01-04 |
发明(设计)人: | 卞东海;蒋帅;陈思姣;罗雨;李明 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F40/295;G06F40/216 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 王珺;武晨燕 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 自动 生成 文章 方法 装置 设备 存储 介质 | ||
本发明实施例提出一种自动生成文章的方法和装置,其中方法包括:确定一组实体的关系,所述一组实体包括两个以上实体;获取两篇以上对应所述一组实体的所述关系的素材文章;将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。本发明实施例能够自动生成关系类文章,避免受到人工编辑者主观性的影响。
技术领域
本发明涉及互联网技术领域,尤其涉及一种自动生成文章的方法、装置、设备及存储介质。
背景技术
关系类文章(CP文章)是指同时关于两个以上实体的文章,并且这两个以上实体存在一定的关系。实体可以理解为文章所涉及的人或事物,例如,人物A的名字即为一个实体。如果A和B分别为两个人物的名字,这两个人物获同一奖项,则实体A和实体B即为存在关系的实体。
关系类文章本身具备可持续更新的特点,再加上其独有的热点性和话题性,使得关系类文章具有很高的吸引力。
现有的关系类文章一般是由人工编辑的,由于编辑者的主观性,文章生成的效率较低且质量较差,难以满足需求。
发明内容
本发明实施例提供一种自动生成文章的方法及装置,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种自动生成文章方法,包括:
确定一组实体的关系,所述一组实体包括两个以上实体;
获取两篇以上对应所述一组实体的所述关系的素材文章;
将获取的两篇以上素材文章整合,生成针对所述一组实体的所述关系的关系类文章。
在一种实施方式中,所述确定一组实体的关系之前,还包括:生成唯一实体集,从所述唯一实体集中获取所述一组实体;所述生成唯一实体集,包括:
获取包含实体的搜索查询语句;
从所述搜索查询语句中抽取实体,将抽取的所述实体加入候选实体集;
根据所述候选实体集中各个实体的词频,过滤所述候选实体集中的错误实体和/或重复实体;
从过滤后的所述候选实体集中提取热度超过预设热度阈值的实体,将提取的所述实体加入所述唯一实体集。
在一种实施方式中,所述确定所述一组实体的关系,包括:
根据所述一组实体中各个实体在针对其他实体的百科数据中的信息,判断所述一组实体中的各个实体之间是否存在关系;
如果存在,则采用以下方式中的至少一种,确定所述一组实体的关系:
获取所述一组实体中各个实体的关键字的取值,将取值相同的关键字作为所述一组实体的关系;或者,
获取所述一组实体中各个实体均具有的特征,将所述特征作为所述一组实体的关系;或者,
获取至少两个包含所述一组实体中各个实体的句子,将各个句子分别划分为组块,对划分的组块求交集,得到所述一组实体中的关系。
在一种实施方式中,所述获取两篇以上对应所述一组实体的所述关系的素材文章之前,还包括:
获取包含一组实体中各个实体的素材文章及所述一组实体的关系;
确定所述关系在所述素材文章中出现的次数,根据所述出现的次数计算所述素材文章针对所述关系的关系得分;
判断所述关系得分是否超过预设得分阈值,如果超过,则确定所述素材文章对应所述一组实体的所述关系。
在一种实施方式中,所述获取两篇以上对应所述一组实体的所述关系的素材文章,包括:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811536360.8/2.html,转载请声明来源钻瓜专利网。