[发明专利]一种基于LSTM的中标网页命名实体抽取方法有效

申请号：	201910013185.2	申请日：	2019-01-07
公开（公告）号：	CN109753660B	公开（公告）日：	2023-06-13
发明（设计）人：	陈羽中;林剑;郭昆	申请（专利权）人：	福州大学
主分类号：	G06F40/295	分类号：	G06F40/295;G06F40/30;G06F16/35;G06N3/0442;G06N3/0455;G06N3/047;G06N3/084
代理公司：	福州元创专利商标代理有限公司 35100	代理人：	蔡学俊
地址：	350108 福建省福州市闽***	国省代码：	福建;35
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	一种基于 lstm 中标网页命名实体抽取方法
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种基于LSTM的中标网页命名实体抽取方法，其特征在于，具体包括以下步骤：

步骤A：对待抽取中标网页的文本数据进行清洗，得到中标文本；

步骤B：以Lattice-LSTM模型作为编码层，并将中标文本作为编码层的输入，得到中标文本的语义信息特征；

步骤C：以LSTM模型作为解码层，并将得到的中标文本的语义信息特征作为解码层的输入，对中标文本中的每个字进行标注；

步骤D：对得到的带标注的中标文本进行规则校正和格式化处理；

步骤E：输出识别的命名实体；

所述步骤B具体为：

步骤B1：将中标文本中的字转化为字向量；

其中，对于中标文本中的第j个字c_j，转化为字向量计算公式如下：

其中，e^c表示字符向量映射表；

步骤B2：将中标文本中的词转换为词向量；

步骤B3：将词向量输入Lattice-LSTM模型，利用Lattice-LSTM模型得到中标文本的语义信息特征；

所述步骤B3具体如下：

对于文本中的每个句子，依次输入步骤B1得到的字向量序列和步骤B2得到的词向量序列到Lattice-LSTM模型中，输出每个字在上下文的语义信息的向量表示序列，具体计算公式如下所示：

是句中的第j个字的字向量，是句中以第j个字为结尾的词的词向量，为j时刻的输出；为词语级LSTM的权重矩阵，为词语级LSTM的偏置项；是词语级LSTM在j时刻的遗忘门；是词语级LSTM在j时刻的输入门；是词语级LSTM在j时刻的候选记忆向量；是词语级LSTM在j时刻的记忆向量；为字符级LSTM的权重矩阵，为字符级LSTM的偏置项；是字符级LSTM在j时刻的输入门；是词语级LSTM在j时刻的候选记忆向量；是词语级LSTM在j时刻的记忆向量；是词语级LSTM在j时刻的输出门；是计算时的权重；

所述步骤C具体为：

步骤C1：针对中标网页的命名实体识别任务，将数据中的字分为两类；

其中，第一类代表与实体无关的字，用标签“O”来表示；第二类代表与实体相关的字，这一类字的标签由三部分组成；

步骤C2：将步骤B得到的表示文本的语义信息的隐藏状态信息输入到解码层的LSTM模型中，计算每个字符在上下文字符的影响下的输出状态，具体计算公式如下所示：

其中为标签向量；

步骤C3：将标签向量输入到Softmax分类器中，对其进行归一化操作，计算文本中每个字被标记为各类标签的概率，具体公式如下所示：

其中W_y为权重矩阵，b_y为偏置项，N_t为标签的种类数；

步骤C4：以对数似然函数为损失函数，通过随机梯度下降优化方法，利用反向传播迭代更新模型参数，以最小化损失函数来训练模型，具体计算公式如下所示：

其中，D表示训练集的大小，L_j是句子x的长度，是字符t在句子x_j的标签，是归一化后的概率，Θ代表模型参数，I(O)是一个选择函数，以区分标签‘O’的损失与可指示实体的标签的损失，具体计算公式如下所示：

下载完整专利技术内容需要扣除积分，VIP会员可以免费下载。

免登录下载普通用户下载升级VIP会员，免费下载

该专利技术资料仅供研究查看技术是否侵权等信息，商用须获得专利权人授权。该专利全部权利属于福州大学，未经福州大学许可，擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作，请联系【客服】