[发明专利]一种基于LSTM的中标网页命名实体抽取方法有效

申请号：	201910013185.2	申请日：	2019-01-07
公开（公告）号：	CN109753660B	公开（公告）日：	2023-06-13
发明（设计）人：	陈羽中;林剑;郭昆	申请（专利权）人：	福州大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F16/35;G06N3/0442;G06N3/0455;G06N3/047;G06N3/084
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市闽***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lstm 中标网页命名实体抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【说明书】：

本发明涉及一种中标数据的命名实体识别方法，包括如下步骤：对中标网页的文本数据进行清洗，得到中标文本；利用Lattice‑LSTM作为编码层得到文本数据的语义信息特征；利用LSTM作为解码层对每个字进行实体标注，标记出语句序列中的实体信息；进行规则的校正和格式化处理；最后输出识别出的中标网页的命名实体。本发明基于Lattice‑LSTM‑LSTM模型，能够高效的识别招标网站的中标项目详情页面中的命名实体。

技术领域

本发明涉及命名实体识别技术领域，具体涉及一种基于LSTM的中标网页命名实体抽取方法。

背景技术

命名实体识别是自然语言处理的一个基础任务。其目的是识别语料中人名、地名、组织机构名等命名实体。由于这些命名实体数量不断增加，通常不可能在词典中穷尽列出，且其构成方法具有各自的一些规律性，因而，通常把对这些词的识别从词汇形态处理(如汉语切分)任务中独立处理，称为命名实体识别。

作为自然语言处理的一个基础任务，命名实体识别的相关研究吸引了越多越多专家和学者的密切关注，并提出了一些优化算法和模型。有学者提出一种基于层叠HMM模型的命名实体识别算法，首先对人名和地名进行识别，然后作为特征进行高层的机构名识别；有学者提出一种基于条件随机场的中文命名实体识别算法，并得到基于字，边界，词性和实体字典作为特征可以取到很好的效果；有学者提出一种基于bootstrapping的方法，利用bootstrapping技术扩大种子词表解决人工标注数据不足的问题；有学者提出一种基于BLSTM的神经网络结构的命名实体识别算法，该方法不再直接依赖于人工特征和领域知识，而是利用基于上下文的词向量和基于字的词向量，前者表达命名实体的上下文信息，后者表达构成命名实体的前缀、后缀和领域信息；有学者提出一种基于BLSTM-CRF模型的命名实体识别算法，对句子进行序列标注时，词之间的label不是独立的，而是考虑前面词的标签信息进而结合词的信息再标记当前词的tag，CRF取代使用softmax从该层输出，产生每个单词的最终预测；有学者提出一种基于堆叠式自编码分类器的深层神经网络模型，解决了从中文文本序列到模型输入向量的转化问题，提出了便于工程实现的向量化前向-后向传播公式。

目前多数的命名实体识别算法都是对人名，地名，机构名进行识别，没有对其进行进一步的划分，且对长实体的识别效果不好。

发明内容

有鉴于此，本发明的目的在于提供一种基于LSTM的中标网页命名实体抽取方法，能快速有效的识别招标网站的中标项目详情页面中的命名实体。

为实现上述目的，本发明采用如下技术方案：

一种基于LSTM的中标网页命名实体抽取方法，具体包括以下步骤：

步骤A：对待抽取中标网页的文本数据进行清洗，得到中标文本；

步骤B：以Lattice-LSTM模型作为编码层，并将中标文本作为编码层的输入，得到中标文本的语义信息特征；

步骤C：以LSTM模型作为解码层，并将得到的中标文本的语义信息特征作为解码层的输入，对中标文本中的每个字进行标注；

步骤D：对得到的带标注的中标文本进行规则校正和格式化处理；

步骤E：输出识别的命名实体。

进一步的，所述步骤B具体为：

步骤B1：将中标文本中的字转化为字向量；