[发明专利]一种基于多层次结构词典的畜产品安全事件文本分类方法在审
申请号: | 201910898642.0 | 申请日: | 2019-09-23 |
公开(公告)号: | CN110659365A | 公开(公告)日: | 2020-01-07 |
发明(设计)人: | 郑丽敏;齐珊珊 | 申请(专利权)人: | 中国农业大学 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36 |
代理公司: | 暂无信息 | 代理人: | 暂无信息 |
地址: | 100083 北京市海淀*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | 本发明涉及一种基于多层次结构词典的畜产品安全事件文本分类方法。方法为:对待处理文本进行分词、去停用词处理;为每个剩余词汇分配一个计数器;分别将每篇文本的剩余分词结果与已构建的畜产品安全事件的多层次结构词典中的词汇进行匹配,并将匹配成功的词汇的计数数值累计加1;最后按照各词汇的计数数值降序排序,将该文本分类到频次最高的词汇所在的词典的层次和类别中。本方法能够辅助分词工具对文本进行分词以提高实体识别的准确率,能够将中文文本按照畜产品安全事件词典的层次结构分类,也可以实现在不用需求下的层次分类,获得各文本之间的层次和类别关系。此外,节省了大量的人力、时间,而且准确率明显提高。 | ||
搜索关键词: | 词汇 畜产品安全 文本 分词 多层次结构 准确率 计数器 层次分类 层次结构 分词结果 降序排序 匹配成功 实体识别 事件文本 文本分类 中文文本 停用词 分类 构建 匹配 分配 | ||
【主权项】:
1.一种基于多层次结构词典的畜产品安全事件文本分类方法,其特征在于,包括:/n对待处理文本进行分词、去停用词处理,所述待处理文本是语料库中所需分类的畜产品安全事件文本;/n为每个剩余词汇分配一个计数器,初始数值均设置为0,所述剩余词汇是所述每篇食品安全事件文本的所有分词结果去停用词后的词汇;/n分别将所述每篇文本的剩余分词结果与已构建的畜产品安全事件的多层次结构词典中的词汇进行匹配,并将匹配成功的词汇的所述计数数值累计加1,其中词典中的同义词已被聚类到同一类别中,歧义词被分类到不同类别中,所述匹配成功的词汇是指文本中的某个词汇在多层次结构词典中能够找到,所述计数数值是为剩余分词结果分配的计数器的数值,所述歧义词是一个词有两种或两种以上的含义,在不同的情境中表示不同的意义,所述同义词是意义相同或相近的词;/n最后按照所述各词汇的计数数值降序排序,将该文本分类到频次最高的词汇所在的所述词典的层次和类别中,其中若匹配词汇为所述歧义词,则根据匹配词汇所在位置的上、下三个句子的距离内的词汇类别判断匹配词汇所属的类别,若匹配词汇为所述同义词,则根据同义词聚类的类别判断匹配词汇所属的类别,其他文本均按此方法完成分类,所述频次最高的词汇指排序在第一位置的词汇,所述此方法是上述步骤所完成分类的方法。/n
下载完整专利技术内容需要扣除积分,VIP会员可以免费下载。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于中国农业大学,未经中国农业大学许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/patent/201910898642.0/,转载请声明来源钻瓜专利网。