[发明专利]实体词识别结果评价方法、装置、设备及实体词提取系统有效

申请号：	201811644155.3	申请日：	2018-12-29
公开（公告）号：	CN109726400B	公开（公告）日：	2023-10-20
发明（设计）人：	韩勇;赵立永;吴新丽	申请（专利权）人：	新华网股份有限公司
主分类号：	G06F40/216	分类号：	G06F40/216;G06F40/295;G06F16/182
代理公司：	北京市立方律师事务所 11330	代理人：	张筱宁
地址：	100062 北京市大兴区北***	国省代码：	北京;11
权利要求书：	查看更多	说明书：	查看更多
摘要：
搜索关键词：	实体词识别结果评价方法装置设备提取系统
钻瓜网技术展会专利词库专利权人专利榜在售专利公布日期热门专利

【权利要求书】：

1.一种实体词识别结果评价方法，其特征在于，包括：

获取待识别文档集的实体词识别结果，其中，所述实体词识别结果是基于至少一种实体词识别方法，分别对待识别文档集进行实体词识别，确定出的任一实体词识别方法对应的实体词识别结果；

确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在所述待识别文档集的第一权值；

基于所述任一待评价实体词的第一权值、所述至少一个实体词识别方法的准确率以及所述至少一个实体词识别方法的惩罚项系数，确定所述任一待评价实体词的第二权值，所述第二权值用于评价所述任一待评价实体词。

2.根据权利要求1所述的实体词识别结果评价方法，其特征在于，所述确定至少一个实体词识别方法分别对应的实体词识别结果中的任一待评价实体词在所述待识别文档集的第一权值，包括：

基于所述任一待评价实体词所在的、所述待识别文档集中各个文章的各个段落的权值系数，以及所述任一待评价实体词在所述各个段落中的出现次数，确定所述任一待评价实体词在所述待识别文档集的第一权值。

3.根据权利要求2所述的实体词识别结果评价方法，其特征在于，所述基于所述任一待评价实体词所在的、所述待识别文档集中各个文章的各个段落的权值系数，以及所述任一待评价实体词在所述各个段落中的出现次数，确定所述任一待评价实体词在所述待识别文档集的第一权值，包括：

通过以下公式，确定所述任一待评价实体词在所述待识别文档集的第一权值：

其中，s(w)表示任一待评价实体词w在所述待识别文档集的第一权值；p_i表示任一待评价实体词w所在的所述待识别文档集中任一文章中的第i段落；表示任一待评价实体词w在其所在的任一文章的p_i段落中的出现次数；η_i为p_i段落的权重系数；m为所述待识别文档集中任一篇文章中的段落总数；n为所述待识别文档集中的文章总数。

4.根据权利要求3所述的实体词识别结果评价方法，其特征在于，所述基于所述任一待评价实体词的第一权值、所述至少一个实体词识别方法的准确率以及所述至少一个实体词识别方法的惩罚项系数，确定所述任一待评价实体词的第二权值，包括：

通过以下公式，确定所述任一待评价实体词的第二权值：

其中，F(w)为任一待评价实体词w的第二权值；l为至少一个实体词识别方法的方法数量；f_l为第l个实体词识别方法的准确率；λ_l为第l个实体词识别方法的惩罚项系数。

5.根据权利要求1-4中任一项所述的实体词识别结果评价方法，其特征在于，所述实体词识别方法包括以下至少一种：

基于汉语言处理包Hanlp的识别方法；

基于斯坦福大学核心自然语言处理包Stanfordcorenlp的识别方法；

基于语言技术平台Ltp的识别方法；

基于双向的_长短期记忆_循环神经网络_条件随机场BI_LSTM_RNN_CRF的识别方法。

6.根据权利要求1所述的实体词识别结果评价方法，其特征在于，该方法还包括：

当归一化处理后的所述第二权值大于预设阈值时，确定对应的待评价实体词为实体词。

7.一种实体词提取系统，其特征在于，包括：

输入模块，用于将待识别文档集存储至Hadoop分布式文件系统HDFS中；