[发明专利]文本分割方法、装置、设备及存储介质在审
申请号: | 201910499932.8 | 申请日: | 2019-06-10 |
公开(公告)号: | CN110222654A | 公开(公告)日: | 2019-09-10 |
发明(设计)人: | 丁宇辰;刘凯 | 申请(专利权)人: | 北京百度网讯科技有限公司 |
主分类号: | G06K9/00 | 分类号: | G06K9/00;G06K9/62;G06F17/24;G06F17/27 |
代理公司: | 北京市铸成律师事务所 11313 | 代理人: | 杨瑾瑾;陈建民 |
地址: | 100085 北京市*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本分割 句子 存储介质 文本 关联度 分割 | ||
本发明实施例提出一种文本分割方法、装置、设备及存储介质,其中方法包括:针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;根据所述关联度确定所述句子间隔是否为文本分割点;在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。本发明实施例能够提出的文本分割方法适用于多种类型的文本,应用领域更广泛。
技术领域
本发明涉及文本分割技术领域,尤其涉及一种文本分割方法、装置、设备及存储介质。
发明内容
现有的文本分割方法一般采用以下两种方式:
第一种是基于外部结构信息的方法。例如,在对网页的超文本标记语言(HTML,Hyper Text Markup Language)文本进行分割时,可以参考HTML标签信息。如,<head>标签中的内容通常是标题,需要与<p>标签下的正文分割开;<list>标签下的内容会以列表形式展现,其内容也与普通文本有明显区别,需要从文本中单独提取出来;遇到<strong>标示的加粗文本,可能代表总结或者强调的含义,可以酌情在此段文字后执行分割。
第二种是基于语义相关性的方法。在文本摘要领域中,一些方法会参考句子与文章标题、主题的关系,判断文本的分割点。首先计算每个句子与文章标题或主题的相关性得分,之后设置一个相关性阈值,将连续的几个相关性高于或低于阈值的句子作为一个短文本片段。
可见,上述第一种方法的应用场景受限于数据格式。当数据格式发生改变,或者没有可依赖的外部结构信息时,方法便无法生效。上述第二种方式需要以文章的标题或主题作为判断依据,当文章没有标题,或是得不到具体、正确的主题时,方法的效果会大打折扣。因此,上述两种方法的应用领域均受到限制。
发明内容
本发明实施例提供一种文本分割方法及装置,以至少解决现有技术中的以上技术问题。
第一方面,本发明实施例提供了一种文本分割方法,包括:
针对第一文本中的每个句子间隔,分别确定所述句子间隔的前句与后句的关联度;
根据所述关联度确定所述句子间隔是否为文本分割点;
在所述句子间隔是文本分割点的情况下,在所述句子间隔的位置分割所述第一文本。
在一种实施方式中,所述确定所述句子间隔的前句与后句的关联度,包括:
根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度。
在一种实施方式中,所述根据所述前句与所述后句的语义关联、所述前句及所述后句的句式结构以及所述后句的引导词中的至少一项,确定所述句子间隔的前句与后句的关联度,包括:
确定所述前句与所述后句的语义关联对应的语义关联矩阵,确定所述前句及所述后句的句式结构对应的句式矩阵,并确定所述后句的引导词对应的引导词矩阵;
对所述语义关联矩阵、所述句式矩阵及所述引导词矩阵分别进行线性变换;
将所述线性变换的结果组合成所述前句与后句的关联信息向量;
将所述关联信息向量输入预先训练的关联度预测模型,得到所述前句与后句的关联度。
在一种实施方式中,所述确定所述前句与所述后句的语义关联对应的语义关联矩阵,包括:
对所述前句中的词对应的词向量进行计算,得到所述前句的语义表示矩阵;并对所述后句中的词对应的词向量进行计算,得到所述后句的语义表示矩阵;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京百度网讯科技有限公司,未经北京百度网讯科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910499932.8/2.html,转载请声明来源钻瓜专利网。