[发明专利]一种基于文本挖掘的造价咨询单位准入考评方法及系统在审
申请号: | 202211445439.6 | 申请日: | 2022-11-18 |
公开(公告)号: | CN115907531A | 公开(公告)日: | 2023-04-04 |
发明(设计)人: | 赵颖博;范西荣;尚勇;李晓兵;孙斌;徐文婷;邓怡卿;姚普及;李锋涛;王嵘婧;冯芫;任欣;李丹;靳宇阳;戴勍;苏广庆;王俊红;姜海乔;王玉军 | 申请(专利权)人: | 国网陕西省电力有限公司;国网陕西省电力公司经济技术研究院;中联五洲工程咨询有限公司 |
主分类号: | G06Q10/0639 | 分类号: | G06Q10/0639;G06F16/335;G06F40/284;G06F18/22;G06F40/30 |
代理公司: | 北京世誉鑫诚专利代理有限公司 11368 | 代理人: | 刘秀珍 |
地址: | 710048 陕*** | 国省代码: | 陕西;61 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 文本 挖掘 造价 咨询 单位 准入 考评 方法 系统 | ||
1.一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述考评方法包括:
步骤S1:从项目生命周期各阶段造价咨询单位提交的报告中收集数据;全面搜集准入规范相关条文,并改写为对应禁止项描述,构建为指标评价报告,获得文本文件;
步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理;
步骤S3:使用Skip-gram模型将文本转化为向量;
步骤S4:采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算;
步骤S5:统计所述评价报告中超过相似度阀值的评价指标名单,获得统计值;
步骤S6:根据所述统计值,结合加权赋分机制确定准入的企业名单。
2.根据权利要求1所述的一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述步骤S2:对所述文本文件进行jieba中文分词以及停用词过滤的预处理具体包括:
建立自定义常用专业词汇词库及停用词词库;
使用具有精确切分文本的jieba分词工具对文本文件进行分词处理,获得分词结果;
调用停用词词库,进行停用词过滤,去除无关干扰信息;
对所述分词结果进行人工调整。
3.根据权利要求1所述的一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述步骤S3:使用Skip-gram模型将文本转化为向量具体包括:
构建词汇表作为训练文本集,生成one-hot向量,作为Skip-gram模型的输入量;
选用softmax算法训练向量,训练Skip-gram模型,获得参数矩阵。
4.根据权利要求1所述的一种基于文本挖掘的造价咨询单位准入考评方法,其特征在于,所述步骤S4:采用加权word2vec对所述评价报告与规范禁止准入条例逐条进行相似度计算具体包括:
文本提取对象包括需要比较的两条文本信息,具体为:
规范禁止准入条例,记为文本Ak(k=1,2,……m);
评价报告中的各项,记为文本记为Bl(l=1,2……n);
使用基于Deep Learning的工具word2vec进行相似度计算,
引入函数WORDSIM(wi,wj)描述文本Ak中第i个分词wi和文本Bl中第j个分词wj的相似度,以此实现两个文本中关键词的对比分析。相关公式表示为:
其中,两个词语wi和wj的词向量表示为:wi=(x1,x2,x3,...xi...xn),wj=(x1,x2,x3,...xj...xn)。其中n表示用word2vec训练词向量时,设定的词向量的维数。
对于两个文本的多个关键词,建立文本相似度评价函数TEXTSIM,得出文本Ak和文本Bl的相似度。
具体方法为:设文本Ak中共有p个关键词,文本Bl中共有q个关键词构建两个文本的相似度矩阵,矩阵应为p×q阶矩阵,记为Skl=(spq),
其中,spq=WORDSIM(wki,wlj),i=1,2,3,……,p;j=1,2,3,……q。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于国网陕西省电力有限公司;国网陕西省电力公司经济技术研究院;中联五洲工程咨询有限公司,未经国网陕西省电力有限公司;国网陕西省电力公司经济技术研究院;中联五洲工程咨询有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202211445439.6/1.html,转载请声明来源钻瓜专利网。
- 上一篇:基于光纤传感技术的管网泄漏监测系统和方法
- 下一篇:膨化奶酪制品及其制备方法
- 同类专利
- 专利分类
G06Q 专门适用于行政、商业、金融、管理、监督或预测目的的数据处理系统或方法;其他类目不包含的专门适用于行政、商业、金融、管理、监督或预测目的的处理系统或方法
G06Q10-00 行政;管理
G06Q10-02 .预定,例如用于门票、服务或事件的
G06Q10-04 .预测或优化,例如线性规划、“旅行商问题”或“下料问题”
G06Q10-06 .资源、工作流、人员或项目管理,例如组织、规划、调度或分配时间、人员或机器资源;企业规划;组织模型
G06Q10-08 .物流,例如仓储、装货、配送或运输;存货或库存管理,例如订货、采购或平衡订单
G06Q10-10 .办公自动化,例如电子邮件或群件的计算机辅助管理