[发明专利]短摘要生成方法、数据库建立方法及人机对话方法有效
申请号: | 201611146025.8 | 申请日: | 2016-12-13 |
公开(公告)号: | CN106777080B | 公开(公告)日: | 2020-04-24 |
发明(设计)人: | 简仁贤;产文;陈思聪;贾陆华;叶俊杰;董彦均 | 申请(专利权)人: | 竹间智能科技(上海)有限公司 |
主分类号: | G06F16/958 | 分类号: | G06F16/958;G06F16/951;G06F16/953;G06F16/9535 |
代理公司: | 北京酷爱智慧知识产权代理有限公司 11514 | 代理人: | 任媛 |
地址: | 200233 上海市浦东新区自由贸*** | 国省代码: | 上海;31 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 摘要 生成 方法 数据库 建立 人机对话 | ||
1.一种基于实体分类的短摘要生成方法,其特征在于,包括:
获取实体,对所述实体进行分类;
根据所述实体的类别选取合适的摘要内容;
选用与所述摘要内容对应的摘要算法,从所述实体的百科页面中提取摘要信息;
拼接所述摘要信息得到短摘要;
所述对所述实体进行分类,包括:
获取所述实体的百科页面;
在所述百科页面中提取特征值;
将所述特征值输入层次分类器,得到所述实体的类别;
所述在所述百科页面中提取特征值,包括:在所述百科页面中提取词条标签、属性特征和词条主要介绍中的词。
2.根据权利要求1所述的方法,其特征在于,所述选用与所述摘要内容对应的摘要算法,从所述实体的百科页面中提取摘要信息,包括:
若所述摘要内容中包含属性,则使用HTML解析器在所述实体的百科页面中提取属性信息,作为所述属性对应的摘要信息;
若所述摘要内容中包含主要故事梗概,则在所述实体的百科页面中检索故事梗概关键词,将包含故事梗概关键词的语句,作为主要故事梗概对应的摘要信息;
若所述摘要内容中包含评论,则在所述实体的百科页面中检索评论关键词,从包含关键词的段落中抽取评论内容,作为评论对应的摘要信息;
若所述实体的类别为人物,则在所述实体的百科页面中检索时间关键词,若检索到的时间关键词为近期的时间,则判定所述人物为热门人物,检索所述热门人物的新闻信息,作为热门人物对应的摘要信息。
3.根据权利要求2所述的方法,其特征在于,所述使用HTML解析器在所述实体的百科页面中提取属性信息,包括:使用HTML解析器在所述实体的百科页面中提取属性信息,若没有提取到属性信息,则选取所述属性的同义词,根据所述同义词使用HTML解析器在所述实体的百科页面中提取属性信息。
4.根据权利要求2所述的方法,其特征在于,所述使用HTML解析器在所述实体的百科页面中提取属性信息,包括:使用HTML解析器在所述实体的百科页面中提取属性信息,对所述属性信息进行正则化。
5.根据权利要求2所述的方法,其特征在于,所述在所述实体的百科页面中检索评论关键词,从包含评论关键词的段落中抽取评论内容,包括:在所述实体的百科页面中检索评论关键词,从包含评论关键词的段落中抽取评论内容,所述包含评论关键词的段落以所述评论关键词出现一级标题为起点,以下一个一级标题为结束。
6.根据权利要求1所述的方法,其特征在于,所述拼接所述摘要信息得到短摘要,包括:
对所述摘要信息做预处理;
根据所述实体的类别,按一定顺序拼接预处理后的摘要信息得到短摘要。
7.一种基于短摘要的数据库建立方法,其特征在于,包括:
在数据库中建立实体的索引;
根据权利要求1~3中任一项所述的方法生成所述实体的短摘要;
根据所述实体的索引将所述短摘要作为所述实体的属性存入所述数据库中。
8.一种人机对话方法,其特征在于,包括:
根据用户输入的文本信息判断查询的属性是否为短摘要;
若查询的属性是短摘要,则获取所述文本信息中的实体;
从数据库中查找所述实体的短摘要,作为回答,其中,所述数据库通过权利要求7所述的方法建立。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于竹间智能科技(上海)有限公司,未经竹间智能科技(上海)有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201611146025.8/1.html,转载请声明来源钻瓜专利网。