[发明专利]一种文本摘要生成方法、装置、设备及介质有效
申请号: | 202110825030.6 | 申请日: | 2021-07-21 |
公开(公告)号: | CN113535942B | 公开(公告)日: | 2022-08-19 |
发明(设计)人: | 杨冬;蒋红宇;胡伯良 | 申请(专利权)人: | 北京海泰方圆科技股份有限公司 |
主分类号: | G06F16/34 | 分类号: | G06F16/34;G06F16/35;G06F40/205;G06F40/30;G06K9/62 |
代理公司: | 北京同达信恒知识产权代理有限公司 11291 | 代理人: | 杜晶 |
地址: | 100094 北京市海淀区东北旺西路*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 摘要 生成 方法 装置 设备 介质 | ||
1.一种文本摘要生成方法,其特征在于,所述方法包括:
确定文本信息中包含的每个句子,针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型,根据所述观点句识别模型的输出结果判断该句子是否为观点句;若是,则将该句子确定为观点句;
基于所述观点句,确定所述文本信息的文本摘要;
所述基于所述观点句,确定所述文本信息的文本摘要包括:
按照每个观点句在所述文本信息中的顺序,依次将每个观点句,确定为文本信息的文本摘要中的句子;或者,
若每个观点句的总字数大于设定的摘要字数阈值,则针对每个观点句,按照每个观点句在所述文本信息中的顺序,依次判断该观点句的字数是否不大于当前摘要剩余字数;若是,则将该观点句确定为文本摘要中的句子,并基于该观点句的字数对当前摘要剩余字数进行更新,其中,当前摘要剩余字数为摘要字数阈值与当前文本摘要中每个句子的总字数的差值;
若该观点句的字数大于当前摘要剩余字数,且该观点句有对应的后备观点句,则针对任一后备观点句,判断该后备观点句的字数是否不大于当前摘要剩余字数;若是,则将该后备观点句确定为文本摘要中的句子,并基于该后备观点句的字数对当前摘要剩余字数进行更新;
所述将该句子确定为观点句之后,所述基于所述观点句,确定所述文本信息的文本摘要之前,所述方法还包括:
针对每个观点句,分别确定该观点句与其他观点句的语义相似度;若该观点句与任一其他观点句的语义相似度大于设定的相似度阈值,则将该其他观点句确定为该观点句对应的后备观点句。
2.根据权利要求1所述的方法,其特征在于,所述确定文本信息中包含的每个句子包括:
基于文本信息中包含的第一标点符号,确定文本信息中包含的每个句子。
3.根据权利要求1所述的方法,其特征在于,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子中是否包含有网页链接,若是,则去除所述网页链接。
4.根据权利要求1所述的方法,其特征在于,所述确定文本信息中包含的每个句子之后,所述针对所述文本信息中包含的每个句子,将该句子输入预先训练完成的观点句识别模型之前,所述方法还包括:
针对所述文本信息中包含的每个句子,判断该句子的字数是否小于设定的第一字数阈值,若否,则进行后续步骤;和/或,
针对所述文本信息中包含的每个句子,判断该句子的字数是否大于设定的第二字数阈值,若是,则基于该句子中的第二标点符号,将该句子拆分为至少两个子句子,其中,每个子句子的字数均不大于所述第二字数阈值且不小于所述第一字数阈值;针对每个子句子,进行后续步骤。
5.根据权利要求1所述的方法,其特征在于,所述基于所述观点句,确定所述文本信息的文本摘要包括:
判断每个观点句的总字数是否大于设定的摘要字数阈值;若是,则将每个观点句中的修饰词进行删除,基于删除修饰词后的观点句,确定所述文本信息的文本摘要。
6.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若该观点句的字数大于当前摘要剩余字数,且该观点句没有对应的后备观点句,则将该观点句进行删除;或,
若该观点句的字数大于当前摘要剩余字数,且该观点句对应的后备观点句的字数均大于当前摘要剩余字数,则将该观点句及对应的后备观点句进行删除。
7.根据权利要求1所述的方法,其特征在于,训练所述观点句识别模型的过程包括:
获取预先配置的样本集中的任一样本句子,所述样本句子对应有标注的样本类别标签,其中,所述样本类别标签用于标识所述样本句子是否为观点句;
将所述样本句子输入待训练的观点句识别模型,通过所述待训练的观点句识别模型,确定所述样本句子对应的识别类别标签;
根据所述样本类别标签及所述识别类别标签,对所述待训练的观点句识别模型进行训练。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京海泰方圆科技股份有限公司,未经北京海泰方圆科技股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202110825030.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:用于能量管理系统的物联网系统
- 下一篇:一种装饰板材加工用定位切割装置