[发明专利]投标文件相似度计算方法及装置有效
申请号: | 201911358125.0 | 申请日: | 2019-12-25 |
公开(公告)号: | CN111160445B | 公开(公告)日: | 2023-06-16 |
发明(设计)人: | 邓帅;余孟泽;黄斌;李华;窦文梅;李振达 | 申请(专利权)人: | 中国建设银行股份有限公司 |
主分类号: | G06F18/22 | 分类号: | G06F18/22;G06Q30/08;G06F40/194;G06F40/186 |
代理公司: | 北京三友知识产权代理有限公司 11127 | 代理人: | 赵平;周永君 |
地址: | 100033 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 投标 文件 相似 计算方法 装置 | ||
本发明公开了一种投标文件相似度计算方法及装置,该方法包括:获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N‑a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落;根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数;根据所述相同词数确定第一投标文件和第二投标文件的相似度。本发明方法大大提高发现围标串标的效率和准确率,且能够大幅降低人力成本和可扩展性成本。
技术领域
本发明涉及自然语言处理领域,具体而言,涉及一种投标文件相似度计算方法及装置。
背景技术
目前在招标时供应商为了利益可能会出现围标串标行为,极大地损害招标者的利益。投标文件本质上是一个文本篇章,是在招标方发布的投标文件模板的基础上进行完善后添加企业相应的投标内容,进行围标串标的企业其投标书的内容应该会比较类似甚至相同,因此可以对投标书的内容进行考察,从而尽可能的发现围标串标行为。但招标过程中应标的企业较多,目前通过人为阅读和比较,效率低下且准确率不高,难以准确的对围标串标行为进行识别。
发明内容
本发明为了解决上述背景技术中的至少一个技术问题,提出了一种投标文件相似度计算方法及装置。
为了实现上述目的,根据本发明的一个方面,提供了一种投标文件相似度计算方法,该方法包括:
获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;
根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落;
根据查找出的语义相同的段落确定第一投标文件的有效文本信息和第二投标文件的有效文本信息的相同词数;
根据所述相同词数确定第一投标文件和第二投标文件的相似度。
可选的,该方法还包括:
对第一投标文件和第二投标文件进行预处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息,其中,预处理包括:分词处理、去燥处理以及去除模板内容中的至少一种。
可选的,所述对第一投标文件和第二投标文件进行预处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息,具体包括:
对所述第一投标文件和所述第二投标文件进行分词处理;
对分词处理后的所述第一投标文件和所述第二投标文件进行去燥处理;
对去燥处理后的所述第一投标文件和所述第二投标文件根据预设的投标文件模板内容进行去除模板内容处理,分别得到第一投标文件的有效文本信息以及第二投标文件的有效文本信息。
可选的,所述根据预设的相同词语查找算法在第二投标文件的有效文本信息的第N-a页至第N+b页中查找出与第一投标文件的有效文本信息的第N页中的段落语义相同的段落,包括:
当两个段落相同词语的数量大于第一预设值时和/或当两个段落相同词语的数量占两个段落总词语数的百分比大于第二预设值时,确定该两个段落为语义相同的段落。
可选的,所述相同词语查找算法为Rabin-Karp算法。
为了实现上述目的,根据本发明的另一方面,提供了一种投标文件相似度计算装置,该装置包括:
有效文本信息获取单元,用于获取第一投标文件的有效文本信息以及第二投标文件的有效文本信息;
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国建设银行股份有限公司,未经中国建设银行股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201911358125.0/2.html,转载请声明来源钻瓜专利网。