[发明专利]一种文本匹配方法和装置、存储介质在审

申请号：	201910851165.2	申请日：	2019-09-10
公开（公告）号：	CN110781272A	公开（公告）日：	2020-02-11
发明（设计）人：	董霖;吕繁荣;俞锋锋	申请（专利权）人：	杭州云深科技有限公司
主分类号：	G06F16/33	分类号：	G06F16/33;G06F40/289
代理公司：	11579 北京锺维联合知识产权代理有限公司	代理人：	黄利萍
地址：	310030 浙江省杭州***	国省代码：	浙江;33
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	词组文本疑似目标待检测文本匹配分词语料库取出方法和装置存储介质滑动步长滑动窗口目标文本匹配结果文本匹配预设规则滑动检测
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明实施例公开了一种文本匹配方法和装置、存储介质，其中，所述方法包括：获取待检测文本，所述待检测文本为包含有至少两个第一分词的第一分词组；将所述第一分词组与语料库中的文本进行分词匹配，并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本；控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式，从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组；将所述第一分词组与所述第二分词组进行匹配，至少基于匹配结果确定所述疑似目标文本是否为与所述待检测文本相匹配的目标文本。如此，为准确、高效地判断出待检测文本是否为抄袭文本奠定了基础。

技术领域

本发明涉及自然语言处理领域，更具体地，涉及一种文本匹配方法和装置、存储介质。

背景技术

文本匹配是自然语言处理中的一个核心问题，很多自然语言处理的任务都可以抽象成文本匹配问题，如此，来解决实际应用中所遇到的问题，比如文章抄袭等。

但是，如何高效准确地基于文本匹配方法来判断待检测文本是否为抄袭文本仍是亟待解决的问题。

发明内容

鉴于上述问题，本发明提出了一种用于检索的方法和装置、存储介质，以为准确、高效地判断出待检测文本是否为抄袭文本奠定了基础。

本发明实施例的技术方案是这样实现的：

第一方面，本发明实施例提供了一种文本匹配方法，包括：

获取待检测文本，所述待检测文本为包含有至少两个第一分词的第一分词组；

将所述第一分词组与语料库中的文本进行分词匹配，并从语料库中选取出与所述第一分词组的匹配程度满足预设规则的至少一个疑似目标文本；

控制滑动窗口按照确定出的滑动步长并通过在所述疑似目标文本中滑动的方式，从所述疑似目标文本中截取出至少两个第二分词以形成第二分词组；