[发明专利]一种基于文本分析的围标串标识别方法有效
申请号: | 202011430658.8 | 申请日: | 2020-12-07 |
公开(公告)号: | CN113011174B | 公开(公告)日: | 2023-08-11 |
发明(设计)人: | 张攀;何斌;罗金波;李单丹;杨红宇;马楠;李婧娴;刘明冬 | 申请(专利权)人: | 红塔烟草(集团)有限责任公司 |
主分类号: | G06F40/284 | 分类号: | G06F40/284;G06F40/205;G06F40/194;G06F16/338;G06F16/335;G06F16/33 |
代理公司: | 北京名华博信知识产权代理有限公司 11453 | 代理人: | 李中强 |
地址: | 653100 云南*** | 国省代码: | 云南;53 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 分析 围标 标识 方法 | ||
本发明公开了一种基于文本分析的投标文件围标串标识别方法,属于数据处理领域,该方法通过计算文本相似性、生僻词数相似度和关键要素区域匹配相似度,通过三个方面的权重加权计算标书围标串标风险值进而判断围标串标的可能性。该方法通过文本分析的方法分析标书围标串标的可能性,提升了对标书围标串标情况的审查效率、分析质量和分析的全面性,重点从生僻词和关键词的角度进行分析,有效避免标书造假者采用转换通用表述的方式规避审查,进一步提升围标串标分析的准确性。
技术领域
本发明属于信息数据处理领域,更具体的说一种基于文本分析的围标串标识别方法。
背景技术
围标串标是一种恶意竞争,损害市场公平秩序的行为,会使中标结果操纵在少数几家企业手中,而使有优势有实力中标的优质投标人失去中选机会,同时使招标企业面临产品质量和履约质量的风险。标书有信息量大、非结构化及内容复杂的特点,因此单纯靠人工审查一方面是效率低,另一方面是会出现遗漏和判断失误的问题。因此有必要提出一种数据自动分析的方法对标书是否围标串标进行识别。
发明内容
为了克服现有技术的上述不足,本发明提出了一种基于文本分析的围标串标识别方法,解决现有人工识别围标串标效率不高,容易出现遗漏的问题。
为了实现上述目的,本发明是采用以下技术方案实现的:一种基于文本分析的围标串标识别方法,具体包括以下步骤;
S1:分词统计词频:进行分词处理,去除停用词,统计分词的词频 TF和词数TC;
S2:基于IF-IDF计算文本相似度:通过TF-IDF计算方法计算相似性;
S3:计算生僻词数相似度:运用出现频数低的词数计算生僻词相似度;
S4:进行关键要素区域匹配:运用关键要素数据,在关键词区域内进行文字匹配,得到匹配情况结果。
S5:预警权重模型计算:根据经验设置文本相似度、生僻词数相似度及关键要素区域匹配这三个计算结果的权重,通过这三个维度的加权平均计算得到两份标书的总体相似度,通过相应阈值判断是否围标串标,并输出分析报告。
进一步的,S1中分词处理,去除停用词,统计分词的词频TF和词数 TC的步骤是:
S11:使用中文分词的常规方法对文件进行分词处理;
S12:将每一个分词分别与停用词库中的词进行比较,如果是停用词库的词则删除;
S13:词频TF为分词在该文档出现的次数与整个文档分词出现次数的比值;
S14:词数TC为分词在该文档出现的次数;
进一步的,S2中基于TF-IDF计算文本相似度的步骤如下:
S21:计算每个分词的反文档频率IDF;
S22:计算两个标书中每一个分词结果的TF-IDF值,该值为分词TF 乘以IDF的结果;
S23:将所有分词的TF-IDF值进行余弦相似度计算;
进一步的,S3中计算生僻词数相似度的步骤如下:
S31:分别检索两个标书词数TC小于及等于w的分词,w根据经验调整,一般为1至20之间的整数;
S32:将满足S31条件的所有同时出现在两个标书中的分词的词数TC累加,得到总数NTC;
S33:将满足S31条件的两个标书中所有分词的次数TC累加,得到总数STC;
S34:NTC/STC则为生僻词数相似度;
进一步的,S4中进行关键要素区域匹配的步骤如下:
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于红塔烟草(集团)有限责任公司,未经红塔烟草(集团)有限责任公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011430658.8/2.html,转载请声明来源钻瓜专利网。
- 上一篇:引物组、包含该引物组的试剂盒以及该引物组的用途
- 下一篇:保护器及线束