[发明专利]一种基于层叠条件随机场的产品名识别方法及装置有效
申请号: | 201510974820.5 | 申请日: | 2015-12-23 |
公开(公告)号: | CN105630768B | 公开(公告)日: | 2018-10-12 |
发明(设计)人: | 黄河燕;杨献祥 | 申请(专利权)人: | 北京理工大学 |
主分类号: | G06F17/27 | 分类号: | G06F17/27 |
代理公司: | 北京理工正阳知识产权代理事务所(普通合伙) 11639 | 代理人: | 唐华 |
地址: | 100081 *** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 基于 层叠 条件 随机 品名 识别 方法 装置 | ||
1.一种基于层叠条件随机场的上下文相关产品名识别方法,该方法包括以下步骤:
步骤一、对语料文本进行分词和词性标注预处理;
步骤二、对语料文本以词为单位进行一次特征表示;
步骤三、对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的低层条件随机场模型进行识别得到初步识别结果,记为标记1;
步骤四、将用一次特征表示的词加上标记1作为二次特征表示;
步骤五、对当前词以已训练的低层条件随机场模型要求的特征模板表示后利用已训练的高层条件随机场模型进行识别获得最终识别结果,记为标记2;
步骤六、将语料文本中被识别出是产品实体的词增加其对应的标记2后输出;
所述一次特征包括基础特征、领域特征、类别特征,所述基础特征用于表示词所具有的特征,包括词本身、词性、是否包含字母、是否包含数字、是否包含特殊字符;领域特征用于表示词所属领域的特征,包括当前词是否品牌名、是否系列名、是否型号名、是否产品属性;类别特征用于表示词所属的类别特征;
所述领域特征基于领域产品知识库通过字符串匹配方式确定,所述领域产品知识库通过以下过程构建:
从领域相关网站抓取产品相关数据;
对抓取到的数据进行解析得到初步的产品实体列表;
对初步的产品实体列表进行人工修正,明确产品实体所属品牌、系列以及型号,构建包括产品实体及其所属品牌、系列以及型号在内的产品实体列表并存储;
参考抓取得到的数据人工整理一个领域产品的常见属性列表并存储;
所述当前词所属的类别特征通过以下过程确定:
基于词向量模型,对其中的词根据彼此之间的相似度进行聚类,两个词A和B对应的词向量和向量之间的相似度通过以下公式计算:
聚类完成后为每一个类别设置一个唯一的类别编号;
将当前词所属的类别的类别编号输出;
所述词向量模型通过以下过程获得:
下载领域相关的网页并解析成纯文本;
对下载得到的文本进行分词处理;
使用分好词的文本训练词向量模型;
所述标记1和标记2采用BIO方式进行标注,B表示实体开始,I表示实体中除开始之外的部分,O表示非实体部分,由此方式得到的标记1为下述之一:
B-BRA:表示品牌名的开始元素;
I-BRA:表示品牌名的除开始元素以外的其它元素;
B-SER:表示系列名的开始元素;
I-SER:表示系列名的除开始元素以外的其它元素;
B-TYP:表示型号名的开始元素;
I-TYP:表示型号名的除开始元素以外的其它元素;
B-COM:表示公司名的开始元素;
I-COM:表示公司名的除开始元素以外的其它元素;
B-PRO:表示产品名的开始元素;
I-PRO:表示产品名的除开始元素以外的其它元素;
O:表示非实体元素;
所述已训练的低层条件随机场模型和高层条件随机场模型通过如下过程得到:
收集产品相关的文本作为训练语料;
对训练语料进行分词和词性标注;
标记分词后的文本中出现的品牌、系列、型号、公司、产品名实体,得到包含产品实体的句子;
对产品实体进行一次特征、标记1和标记2表示;
将以一次特征、标记1表示的产品实体用于条件随机场模型的训练得到已训练的低层条件随机场模型,其特征模板应包括上一个词、当前词和下一个词的特征;
将以一次特征、标记1、标记2表示的产品实体用于条件随机场模型的训练得到已训练的高层条件随机场模型,其特征模板应包括上一个词、当前词和下一个词的特征。
2.根据权利要求1所述的产品名识别方法构建的一种基于层叠条件随机场的上下文相关产品名识别装置,其特征在于:包括领域产品知识库、词向量模型、已训练的低层条件随机场模型、已训练的高层条件随机场模型、文本预处理模块、一次特征表示模块、二次特征表示模块、初步产品名识别模块、最终产品名识别模块和识别结果输出模块;文本预处理模块、一次特征表示模块、初步产品名识别模块、二次特征表示模块、最终产品名识别模块和识别结果输出模块依次相连,领域产品知识库、词向量模型分别与一次特征表示模块相连,已训练的低层条件随机场模型与初步产品名识别模块相连,已训练的高层条件随机场模型与最终产品名识别模块相连。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京理工大学,未经北京理工大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510974820.5/1.html,转载请声明来源钻瓜专利网。