[发明专利]一种面向招标文本的信息抽取方法在审
申请号: | 201810513564.3 | 申请日: | 2018-05-25 |
公开(公告)号: | CN108874771A | 公开(公告)日: | 2018-11-23 |
发明(设计)人: | 刘漳辉;陈艺燕;陈星;郭晨皓 | 申请(专利权)人: | 福州大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 福州元创专利商标代理有限公司 35100 | 代理人: | 蔡学俊 |
地址: | 350108 福建省福*** | 国省代码: | 福建;35 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 文本 抽取 信息抽取 招标文件 招标信息 招标 预处理 分词 自然语言处理 读取 抽取模块 词性处理 分词结果 技术实现 文本内容 预设信息 结构化 调用 标注 匹配 存储 规范化 | ||
1.一种面向招标文本的信息抽取方法,其特征在于,包括如下步骤:
步骤S1:对招标文件进行规范化处理;
步骤S2:根据所需要抽取的信息,建立对应的关键词列表;
步骤S3:逐句读取招标文件的文本内容,使用jieba分词逐句对招标文件的文本进行分词与标注词性处理;将分词结果进行存储,作为后续抽取操作的输入数据,完成预处理;
步骤S4:通过调用预设信息抽取模块,根据目标招标信息,对预处理过的文本采用对应匹配抽取方式进行对应的招标信息抽取操作,获取抽取结果。
2.根据权利要求1所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S1中,还包括如下过程:
步骤S11:从本地的招标文件中读取文本;
步骤S12:查找文本中所有的回车符和空行,将文本所有的回车符使用句号代替,将文本中的空行删除;
步骤S13:将规范化处理后的文本进行存储。
3.根据权利要求1所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S2中,所述关键词列表的格式如下:
Keyword_list=['招标内容','项目名称','项目编号','接受投标时间','采购人名称','投标截止及开标时间','投标地点及开标地点','联系电话采购中心地址','邮政编码','项目负责人','公告期限','联系电话','招标公告','项目联系人','项目联系电话','采购单位联系方式','采购单位','联系方式','代理机构联系方式','代理机构','代理机构联系人','代理机构联系地址','预算金额','招标文件售价','招标文件获取方式','投标截止时间','开标时间','开标地点','项目联系方式','资格要求','地点','最高投标限价'。
4.根据权利要求3所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S3中,根据所述关键词列表建立词典,并将词典加入jieba分词,按照如下步骤对已经规范化的文本采用概率语言模型算法进行分词处理:
步骤S31:引入jieba分词包;
步骤S32:逐句读取规范化的招标文件;
步骤S33:采用Python的内置函数split()函数通过指定分隔符对字符串进行切片,且指定分配符采用句号,将文本切片成以句号为单位的文本;
步骤S34:利用jieba的add_word()函数将Keyword_list中的词加入到jieba的内置词典中,并动态修改词典;
步骤S35:对句子进行分词,调用jieba.cut对句子进行分词处理,返回一个一个可迭代的generator,使用for循环来获得分词后得到的每一个词语。
5.根据权利要求1所述的一种面向招标文本的信息抽取方法,其特征在于,在所述步骤S4中,所要抽取的招标信息包括:项目名称抽取、项目编号抽取、联系电话抽取、相关时间信息抽取、项目负责人与项目联系人抽取。
6.根据权利要求5所述的一种面向招标文本的信息抽取方法,其特征在于,所述项目名称抽取按照如下步骤实现:
步骤S411:输入分词结果,匹配找到包括“项目名称”的句子;
步骤S412:通过采用stanfordcorenlp句法分析方法,对上述句子进行句法分析;
步骤S413:在句法分析结果返回的list中,查找包括“项目”或者“服务项目”的元素,并往前回溯元素,直到查找的元素的父节点不包括“项目”或者“服务项目”的元素;若超过预设阀值,则令第10个词为项目名字的起始;
步骤S414:迭代返回,即为项目名称。
7.根据权利要求5所述的一种面向招标文本的信息抽取方法,其特征在于,所述项目编号抽取按照如下步骤实现:
步骤S421:输入分词结果,匹配找到含有“项目编号”的句子;
步骤S422:匹配正则表达式;
r1=r’[A-Z][A-Z0-9\-\/]+’
projectNum=re.search(r1,file,re.M|re.I)
步骤S423:保存匹配得到的字符串。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于福州大学,未经福州大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201810513564.3/1.html,转载请声明来源钻瓜专利网。