[发明专利]一种文本摘要获取方法及装置在审
申请号: | 201410850654.3 | 申请日: | 2014-12-30 |
公开(公告)号: | CN104615654A | 公开(公告)日: | 2015-05-13 |
发明(设计)人: | 李慧;赵瑞龙;韦正云;黄茂松;郭维;肖国彪;燕青;冯烨;陈维;吴汉章 | 申请(专利权)人: | 中国联合网络通信有限公司广东省分公司;北京亚信智慧数据科技有限公司 |
主分类号: | G06F17/30 | 分类号: | G06F17/30 |
代理公司: | 广州三环专利代理有限公司 44202 | 代理人: | 郝传鑫;熊永强 |
地址: | 510000 广*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 摘要 获取 方法 装置 | ||
1.一种文本摘要获取方法,其特征在于,包括:
获取目标文件中的文本数据;
判断所述文本数据中是否包括摘要关键字,所述摘要关键字用于指示所述文本数据中的文本摘要所在的位置;
若判断出所述文本数据中包括所述摘要关键字,则统计所述摘要关键字所在的文本段落的字数;
将统计的所述字数与第一预设阈值进行比较;
若比较出所述字数小于所述第一预设阈值,则将所述摘要关键字所在的文本段落确定为文本摘要。
2.根据权利要求1所述的方法,其特征在于,所述判断出所述文本数据中包括所述摘要关键字之前,所述判断所述文本数据中是否包括摘要关键字之后,还包括:
若判断出所述文本数据中不包括所述摘要关键字,则提取所述文本数据中的第一文本段落中的第一特征中文分词;
根据所述第一特征中文分词生成第一特征词表;
提取所述文本数据中的第二特征中文分词;
根据所述第二特征中文分词生成第二特征词表;
确定所述第二特征中文分词的第一权重,所述第一权重由所述第二特征中文分词中的单个特征中文分词的出现次数和所述第二特征中文分词中的所有特征中文分词出现次数的加和确定;
将所述第二特征词表中的第二特征中文分词按照所述第一权重的第一指定顺序排列;
提取所述第二特征词表中的所述第一权重排在前N1位的所述第二特征中文分词,所述N1由所述第一特征中文分词的数量与第一预设系数确定,且为大于或等于1的整数;
根据所述第二特征词表中所述第一权重排在前N1值位的所述第二特征中文分词,生成第三特征词表;
确定所述第一特征词表与所述第三特征词表的吻合度;
将所述吻合度与第二预设阈值进行比较;
若比较出所述吻合度大于或等于所述第二预设阈值,则将所述第一文本段落确定为文本摘要。
3.根据权利要求2所述的方法,其特征在于,所述计算所述第一特征词表与所述第三特征词表的吻合度包括:
统计所述第一特征词表中与所述第三特征词表中的所述第二特征中文分词相同的所述第一中文分词的数量,以及统计所述第一特征词表中的所述第一特征中文分词的总数量;
根据统计的所述数量和所述第一特征中文分词的总数量,计算所述第一特征词表与所述第三特征词表的吻合度。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国联合网络通信有限公司广东省分公司;北京亚信智慧数据科技有限公司;,未经中国联合网络通信有限公司广东省分公司;北京亚信智慧数据科技有限公司;许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201410850654.3/1.html,转载请声明来源钻瓜专利网。