[发明专利]一种文本要素完整性审核方法及装置有效
申请号: | 201910722356.9 | 申请日: | 2019-08-06 |
公开(公告)号: | CN110442872B | 公开(公告)日: | 2022-12-16 |
发明(设计)人: | 李健铨;赵红红;晋耀红 | 申请(专利权)人: | 鼎富智能科技有限公司 |
主分类号: | G06F40/194 | 分类号: | G06F40/194;G06F40/30;G06K9/62;G06N3/04;G06N3/08 |
代理公司: | 北京弘权知识产权代理有限公司 11363 | 代理人: | 逯长明;许伟群 |
地址: | 230000 安徽省合肥市*** | 国省代码: | 安徽;34 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 文本 要素 完整性 审核 方法 装置 | ||
1.一种文本要素完整性审核方法,其特征在于,包括:
获取要素审核模板,所述要素审核模板包含多个文本要素模板;
对待审核文本进行段落解析,得到每个段落的概要内容;
对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度;
根据所述综合匹配度确定每个所述概要内容匹配的目标文本要素模板,所述目标文本要素模板是与所述概要内容的综合匹配度大于预设阈值的文本要素模板;
根据各个所述概要内容匹配到的目标文本要素模板,以及预设的要素完整性条件,判断所述待审核文本的文本要素是否完整。
2.根据权利要求1所述的方法,其特征在于,所述对于每个所述概要内容,根据词形匹配和语义匹配,分别计算其与各个文本要素模板的综合匹配度,包括:
对于每个所述概要内容,根据词形匹配,分别计算其与各个所述文本要素模板的词形匹配度,以及,根据语义匹配,分别计算其与各个所述文本要素模板的语义匹配度;
将所述词形匹配度和所述语义匹配度加权求和,得到所述综合匹配度。
3.根据权利要求2所述的方法,其特征在于,所述文本要素模板包含至少一个要素实例,所述要素实例包含关键词实例、模板实例和句子实例中的一种或多种。
4.根据权利要求3所述的方法,其特征在于,所述词形匹配度使用以下公式计算得到:
tesi词形=Sim词形(title,Elementi)
tcsi词形=max(Sim词形(title,Elementij))
其中,title表示概要内容;Elementi表示所述要素审核模板中的第i个文本要素模板,i为大于或者等于1的正整数;Elementij表示所述第i个文本要素模板对应的第j个要素实例,j为大于或者等于1的正整数;Sim词形(title,Elementi)为概要内容和所述要素审核模板中第i个文本要素模板的第一词形相似度;Sim词形(title,Elementij)为概要内容和所述要素审核模板对应的第j个要素实例的第二词形相似度;max为取结果最大值;Score词形为所述词形匹配度。
5.根据权利要求3所述的方法,其特征在于,
所述文本要素模板包括一级要素和二级要素;
所述综合匹配度包括所述概要内容和所述一级要素的第一综合匹配度,以及,所述概要内容和所述二级要素的第二综合匹配度。
6.根据权利要求5所述的方法,其特征在于,所述根据综合匹配度确定每个所述概要内容匹配的目标文本要素模板,包括:
当所述第一综合匹配度大于所述第二综合匹配度时,所述概要内容与所述目标文本要素模板的一级要素匹配;
当所述第一综合匹配度小于或者等于所述第二综合匹配度时,判断所述第二综合匹配度对应的tesi词形和tcsi词形的大小;
如果tesi词形大于或者等于tcsi词形,所述概要内容与所述目标文本要素模板的二级要素匹配;
如果tesi词形小于tcsi词形,所述概要内容不与任何文本要素模板匹配。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于鼎富智能科技有限公司,未经鼎富智能科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201910722356.9/1.html,转载请声明来源钻瓜专利网。