[发明专利]一种基于文本分析的围标串标识别方法有效

申请号：	202011430658.8	申请日：	2020-12-07
公开（公告）号：	CN113011174B	公开（公告）日：	2023-08-11
发明（设计）人：	张攀;何斌;罗金波;李单丹;杨红宇;马楠;李婧娴;刘明冬	申请（专利权）人：	红塔烟草（集团）有限责任公司
主分类号：	G06F40/284	分类号：	G06F40/284;G06F40/205;G06F40/194;G06F16/338;G06F16/335;G06F16/33
代理公司：	北京名华博信知识产权代理有限公司 11453	代理人：	李中强
地址：	653100 云南***	国省代码：	云南;53
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于文本分析围标标识方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明公开了一种基于文本分析的投标文件围标串标识别方法，属于数据处理领域，该方法通过计算文本相似性、生僻词数相似度和关键要素区域匹配相似度，通过三个方面的权重加权计算标书围标串标风险值进而判断围标串标的可能性。该方法通过文本分析的方法分析标书围标串标的可能性，提升了对标书围标串标情况的审查效率、分析质量和分析的全面性，重点从生僻词和关键词的角度进行分析，有效避免标书造假者采用转换通用表述的方式规避审查，进一步提升围标串标分析的准确性。

技术领域

本发明属于信息数据处理领域，更具体的说一种基于文本分析的围标串标识别方法。

背景技术

围标串标是一种恶意竞争，损害市场公平秩序的行为，会使中标结果操纵在少数几家企业手中，而使有优势有实力中标的优质投标人失去中选机会，同时使招标企业面临产品质量和履约质量的风险。标书有信息量大、非结构化及内容复杂的特点，因此单纯靠人工审查一方面是效率低，另一方面是会出现遗漏和判断失误的问题。因此有必要提出一种数据自动分析的方法对标书是否围标串标进行识别。

发明内容

为了克服现有技术的上述不足，本发明提出了一种基于文本分析的围标串标识别方法，解决现有人工识别围标串标效率不高，容易出现遗漏的问题。

为了实现上述目的，本发明是采用以下技术方案实现的：一种基于文本分析的围标串标识别方法，具体包括以下步骤；

S1：分词统计词频：进行分词处理，去除停用词，统计分词的词频 TF和词数TC；

S2：基于IF-IDF计算文本相似度：通过TF-IDF计算方法计算相似性；

S3：计算生僻词数相似度：运用出现频数低的词数计算生僻词相似度；

S4：进行关键要素区域匹配：运用关键要素数据，在关键词区域内进行文字匹配，得到匹配情况结果。

S5：预警权重模型计算：根据经验设置文本相似度、生僻词数相似度及关键要素区域匹配这三个计算结果的权重，通过这三个维度的加权平均计算得到两份标书的总体相似度，通过相应阈值判断是否围标串标，并输出分析报告。

进一步的，S1中分词处理，去除停用词，统计分词的词频TF和词数 TC的步骤是：

S11：使用中文分词的常规方法对文件进行分词处理；

S12：将每一个分词分别与停用词库中的词进行比较，如果是停用词库的词则删除；

S13：词频TF为分词在该文档出现的次数与整个文档分词出现次数的比值；