[发明专利]一种基于文本挖掘的造价咨询单位准入考评方法及系统在审
申请号: | 202211445439.6 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115907531A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 赵颖博;范西荣;尚勇;李晓兵;孙斌;徐文婷;邓怡卿;姚普及;李锋涛;王嵘婧;冯芫;任欣;李丹;靳宇阳;戴勍;苏广庆;王俊红;姜海乔;王玉军 | 申请(专利权)人: | 国网陕西省电力有限公司;国网陕西省电力公司经济技术研究院;中联五洲工程咨询有限公司 |
主分类号: | G06Q10/0639 | 分类号: | G06Q10/0639;G06F16/335;G06F40/284;G06F18/22;G06F40/30 |
代理公司: | 北京世誉鑫诚专利代理有限公司 11368 | 代理人: | 刘秀珍 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 造价 咨询 单位 准入 考评 方法 系统 | ||
本发明提供的一种基于文本挖掘的造价咨询单位准入考评方法及系统,所述考评方法包括:收集数据;全面搜集准入规范相关条文,构建为指标评价报告,获得文本文件;对所述文本文件进行jieba中文分词以及停用词过滤的预处理;采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算;统计所述评价报告中超过相似度阀值的评价指标名单,获得统计值;根据所述统计值,结合加权赋分机制确定准入的企业名单。深入联系项目实际,基于文本挖掘,实现对电力造价咨询单位的优选与准入,向甲方提供可靠、有效的造价咨询单位业务能力评价。
技术领域
本发明涉及文本挖掘领域,尤其涉及一种基于文本挖掘的造价咨询单位准入考评方法及系统。
背景技术
文本挖掘技术是指对文本的表示及其特征项的选取,是文本挖掘、信息检索中的基本问题。它将无结构的原始文本转化为结构化的计算机可以识别和处理的信息,从而建立数学模型来描述和代替文本,最终实现从大量文本中挖掘有效信息的目的。文本相似度研究是文本挖掘技术的一种,文本间的相似度计算方法可简单分为两类:基于字符串的文本相似度计算方法和基于语料库的文本间的相似度计算方法。前者是利用字符的组合以及字符串序列,计算余弦相似度或编辑距离相似度,这种基于字符串的方法是在字面层次上的文本比较,忽略了文本中大部分的词语是同义词和近义词,缺少对这些词汇的语义也就是在句子中真实的含义的考虑。这样不考虑文本的语义信息会使计算出的文本间的相似度很难符合人们的主观对文本的理解。而且该方法会带来维数灾难,从而使计算机的计算和数据的存储带来了严峻的挑战。为解决深入的处理相似度计算这个问题,研究者们着手研究基于语料库的方法。基于语料库的方法包括基于词袋模型的LSA、GLSA、PLSA、LDA等方法,还有基于神经网络的word2vec和doc2vec。能够很好的避免词袋模型中的词向量带来的维数灾难,从而降低文本相似度计算中的词向量计算的时间和空间的复杂度。
发明内容
鉴于上述问题,提出了本发明以便提供克服上述问题或者至少部分地解决上述问题的一种基于文本挖掘的造价咨询单位准入考评方法及系统。
根据本发明的一个方面,提供了一种基于文本挖掘的造价咨询单位准入考评方法,所述考评方法包括:
步骤S1:从项目生命周期各阶段造价咨询单位提交的报告中收集数据;全面搜集准入规范相关条文,并改写为对应禁止项描述,构建为指标评价报告,获得文本文件;
步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理;
步骤S3:使用Skip-gram模型将文本转化为向量;
步骤S4:采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算;
步骤S5:统计所述评价报告中超过相似度阀值的评价指标名单,获得统计值;
步骤S6:根据所述统计值,结合加权赋分机制确定准入的企业名单。
可选的,所述步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理具体包括:
建立自定义常用专业词汇词库及停用词词库;
使用具有精确切分文本的jieba分词工具对文本文件进行分词处理,获得分词结果;
调用停用词词库,进行停用词过滤,去除无关干扰信息;
对所述分词结果进行人工调整。
可选的,所述步骤S3:使用Skip-gram模型将文本转化为向量具体包括:
构建词汇表作为训练文本集,生成one-hot向量,作为Skip-gram模型的输入量;
选用softmax算法训练向量,训练Skip-gram模型,获得参数矩阵。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网陕西省电力有限公司;国网陕西省电力公司经济技术研究院;中联五洲工程咨询有限公司,未经国网陕西省电力有限公司;国网陕西省电力公司经济技术研究院;中联五洲工程咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211445439.6/2.html,转载请声明来源钻瓜专利网。
- 上一篇:基于光纤传感技术的管网泄漏监测系统和方法
- 下一篇:膨化奶酪制品及其制备方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理