[发明专利]一种修正实体词识别的方法和装置在审
申请号: | 201510498362.2 | 申请日: | 2015-08-14 |
公开(公告)号: | CN105068999A | 公开(公告)日: | 2015-11-18 |
发明(设计)人: | 范莹;于治楼 | 申请(专利权)人: | 浪潮集团有限公司 |
主分类号: | G06F17/28 | 分类号: | G06F17/28;G06F17/27 |
代理公司: | 济南信达专利事务所有限公司 37100 | 代理人: | 李世喆 |
地址: | 250100 山东*** | 国省代码: | 山东;37 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 一种 修正 实体词 识别 方法 装置 | ||
技术领域
本发明涉及计算机语言处理领域,特别涉及一种修正实体词识别的方法和装置。
背景技术
现在很多企业通过大数据来获取具有价值的信息资产,而从大数据的应用现状来看,主要通过基础训练语料来识别出文本中的人名、地名等专有名称和有意义的时间、日期等数量短语并加以归类,但是,在实际应用中,因为行业不同、业务不同,专有名称存在一定的差异性,导致识别实体词准确性较低。
发明内容
本发明提供一种修正实体词识别的方法和装置,以提高识别实体词的准确性。
一种修正实体词识别的方法,为训练语料中的各个类别的实体词配置对应的标注,还包括:
根据所述训练语料中的各个类别的实体词对应的标注,对文本中分词后的各个实体词进行标注;
查看具有标注的各个实体词;
在接收到触发时,修正实体词的标注,并按照修正后的实体词的标注更新所述训练语料中实体词的类别;
按照更新后的实体词的类别,进行分词。
优选地,在所述查看具有标注的各个实体词之后,在所述修正实体词的标注之前,进一步包括:在接收到触发时,对所述各个实体词中错误的实体词进行重新分词;
所述按照更新后的实体词的类别,进行分词,包括:按照重新分词后的各个实体词和更新后的实体词的类别,进行分词。
优选地,所述为各个类别的实体词配置对应的标注,包括:为各个类别的实体词配置对应的显示颜色;
所述对文本中分词后的各个实体词进行标注,包括:为文本中分词后的各个实体词分配显示颜色;
所述查看具有标注的各个实体词,包括:按照所述分配的显示颜色,显示所述各个实体词;
所述修正实体词的标注,包括:修正实体词的显示颜色。
优选地,在所述对文本中分词后的各个实体词进行标注之后,在所述查看具有标注的各个实体词之前,进一步包括:将具有标注的文本以html文件的形式保存;
所述查看具有标注的各个实体词,包括:查看所述html文件中具有标注的各个实体词。
优选地,所述查看具有标注的各个实体词,包括:通过外设的浏览器查看具有标注的各个实体词。
优选地,该方法进一步包括:设置修正实体词的反馈阈值;
在所述对文本中分词后的各个实体词进行标注之前,进一步包括:通过外设的实体词识别模型对文本进行分词;
在所述按照修正后的实体词的标注更新所述训练语料中实体词的类别之后,在所述按照更新后的实体词的类别,进行分词之前,进一步包括:
确定修正实体词的反馈值;
当所述反馈值达到所述反馈阈值时,根据更新后的训练语料,重建所述外设的实体词识别模型;
所述按照更新后的实体词的类别,进行分词,包括:按照更新后的实体词的类别,利用所述重建的外设的所述实体词识别模型进行分词。
一种修正实体词识别装置,包括:
配置单元,用于为训练语料中的各个类别的实体词配置对应的标注;
修正单元,用于根据所述配置单元为所述各个类别的实体词配置的对应的标注,对文本中分词后的各个实体词进行标注,并查看具有标注的各个实体词,在接收到触发时,修正实体词的标注,并更新所述训练语料中实体词的类别;
分词单元,用于按照所述修正单元更新后的实体词的类别,进行分词。
优选地,所述修正单元,进一步用于在接收到触发时,对所述各个实体词中错误的实体词进行重新分词;
所述分词单元,用于按照所述修正单元进行重新分词后的各个实体词和更新的实体词的类别,进行分词。
优选地,所述配置单元,用于为各个类别的实体词配置对应的显示颜色;
所述修正单元,用于为文本中分词后的各个实体词分配显示颜色,按照所述分配的显示颜色,显示所述各个实体词,并修正实体词的显示颜色。
优选地,所述修正单元,进一步用于将具有标注的文本以html文件的形式保存,并查看所述html文件中具有标注的各个实体词。
优选地,所述修正单元,用于通过外设的浏览器查看具有标注的各个实体词。
优选地,该装置进一步包括:重建单元,其中,
所述配置单元,进一步用于设置修正实体词的反馈阈值;
所述重建单元,用于确定修正实体词的反馈值,当所述反馈值达到所述确定单元确定的反馈阈值时,根据更新后的训练语料,重建外设的实体词识别模型;
所述分词单元,用于按照更新后的实体词的类别,触发所述重建的外设的所述实体词识别模型进行分词。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于浪潮集团有限公司,未经浪潮集团有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201510498362.2/2.html,转载请声明来源钻瓜专利网。
- 上一篇:相册管理方法、装置以及终端设备
- 下一篇:等离子真空泵