[发明专利]实体词识别结果评价方法、装置、设备及实体词提取系统有效
申请号: | 201811644155.3 | 申请日: | 2018-12-29 |
公开(公告)号: | CN109726400B | 公开(公告)日: | 2023-10-20 |
发明(设计)人: | 韩勇;赵立永;吴新丽 | 申请(专利权)人: | 新华网股份有限公司 |
主分类号: | G06F40/216 | 分类号: | G06F40/216;G06F40/295;G06F16/182 |
代理公司: | 北京市立方律师事务所 11330 | 代理人: | 张筱宁 |
地址: | 100062 北京市大兴区北*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 实体词 识别 结果 评价 方法 装置 设备 提取 系统 | ||
1.一种实体词识别结果评价方法,其特征在于,包括:
获取待识别文档集的实体词识别结果,其中,所述实体词识别结果是基于至少一种实体词识别方法,分别对待识别文档集进行实体词识别,确定出的任一实体词识别方法对应的实体词识别结果;
确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在所述待识别文档集的第一权值;
基于所述任一待评价实体词的第一权值、所述至少一个实体词识别方法的准确率以及所述至少一个实体词识别方法的惩罚项系数,确定所述任一待评价实体词的第二权值,所述第二权值用于评价所述任一待评价实体词。
2.根据权利要求1所述的实体词识别结果评价方法,其特征在于,所述确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在所述待识别文档集的第一权值,包括:
基于所述任一待评价实体词所在的、所述待识别文档集中各个文章的各个段落的权值系数,以及所述任一待评价实体词在所述各个段落中的出现次数,确定所述任一待评价实体词在所述待识别文档集的第一权值。
3.根据权利要求2所述的实体词识别结果评价方法,其特征在于,所述基于所述任一待评价实体词所在的、所述待识别文档集中各个文章的各个段落的权值系数,以及所述任一待评价实体词在所述各个段落中的出现次数,确定所述任一待评价实体词在所述待识别文档集的第一权值,包括:
通过以下公式,确定所述任一待评价实体词在所述待识别文档集的第一权值:
其中,s(w)表示任一待评价实体词w在所述待识别文档集的第一权值;pi表示任一待评价实体词w所在的所述待识别文档集中任一文章中的第i段落;表示任一待评价实体词w在其所在的任一文章的pi段落中的出现次数;ηi为pi段落的权重系数;m为所述待识别文档集中任一篇文章中的段落总数;n为所述待识别文档集中的文章总数。
4.根据权利要求3所述的实体词识别结果评价方法,其特征在于,所述基于所述任一待评价实体词的第一权值、所述至少一个实体词识别方法的准确率以及所述至少一个实体词识别方法的惩罚项系数,确定所述任一待评价实体词的第二权值,包括:
通过以下公式,确定所述任一待评价实体词的第二权值:
其中,F(w)为任一待评价实体词w的第二权值;l为至少一个实体词识别方法的方法数量;fl为第l个实体词识别方法的准确率;λl为第l个实体词识别方法的惩罚项系数。
5.根据权利要求1-4中任一项所述的实体词识别结果评价方法,其特征在于,所述实体词识别方法包括以下至少一种:
基于汉语言处理包Hanlp的识别方法;
基于斯坦福大学核心自然语言处理包Stanfordcorenlp的识别方法;
基于语言技术平台Ltp的识别方法;
基于双向的_长短期记忆_循环神经网络_条件随机场BI_LSTM_RNN_CRF的识别方法。
6.根据权利要求1所述的实体词识别结果评价方法,其特征在于,该方法还包括:
当归一化处理后的所述第二权值大于预设阈值时,确定对应的待评价实体词为实体词。
7.一种实体词提取系统,其特征在于,包括:
输入模块,用于将待识别文档集存储至Hadoop分布式文件系统HDFS中;
提取模块,用于通过Spark Streaming,从所述HDFS中以离散数据流的形式读取待提取的文本集数据,并执行权利要求1-6中任一项所述的方法,提取得到实体词;
输出模块,用于以离散数据流的形式将提取得到的实体词反馈至对应的话题中,以用于网络发布。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于新华网股份有限公司,未经新华网股份有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811644155.3/1.html,转载请声明来源钻瓜专利网。