[发明专利]用于获取中文文本要义的方法和装置有效
申请号: | 201811287057.9 | 申请日: | 2018-10-31 |
公开(公告)号: | CN111125353B | 公开(公告)日: | 2023-02-24 |
发明(设计)人: | 唐喆 | 申请(专利权)人: | 北京国双科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06F40/289 |
代理公司: | 北京润平知识产权代理有限公司 11283 | 代理人: | 肖冰滨;王晓晓 |
地址: | 100086 北京市海淀区*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 用于 获取 中文 文本 要义 方法 装置 | ||
1.一种用于获取中文文本要义的方法,其特征在于,所述方法包括:
对所述中文文本进行实体识别处理,以确定具有特定意义的实体名称;
对所述中文文本进行关键短语提取;
确定每一所述关键短语之后最近的一个修饰词语;以及
按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息;
所述具有特定意义的实体名称为职业名称、机构名称、人名、地名、商品名称、专有名称中的至少一种;和/或
所述修饰词语为副词或形容词;
所述方法还包括:
对所述实体名称进行频次统计,确定每个所述实体名称的频数;
对所述关键短语进行频次统计,确定每个所述关键短语的频数;
对同一个关键短语之后最近的修饰词语进行频次统计,确定每一修饰词语的频数;以及
所述按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息包括:根据实体名称的频数、关键短语的频数和修饰词语的频数,按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
在确定出每一关键短语之后最近的一个修饰词语后、输出所述中文文本的要义信息之前,判断所述修饰词语的情感;
所述输出针对所述中文文本的要义信息包括:按照实体名称、关键短语、修饰词语和修饰词语的情感的顺序输出针对所述中文文本的要义信息。
3.根据权利要求1所述的方法,其特征在于,所述根据实体名称的频数、关键短语的频数和修饰词语的频数,按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息包括:
按照实体名称、关键短语和修饰词语的顺序,输出最高频数的实体名称、最高频数的关键短语和针对所述最高频数的关键短语的最高频数的修饰词语。
4.根据权利要求1至3中任一项所述的方法,其特征在于,所述方法还包括:
对所述中文文本进行聚类处理,以获得一个或多个子文本库;以及
获取每个所述子文本库的要义信息,以得到所述中文文本的要义信息。
5.一种用于获取中文文本要义的装置,其特征在于,所述装置包括:
实体识别模块,用于对所述中文文本进行实体识别处理,以确定具有特定意义的实体名称;
提取模块,用于对所述中文文本进行关键短语提取;
感情识别模块,用于确定每一所述关键短语之后最近的一个修饰词语;以及
输出模块,用于按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息;
所述具有特定意义的实体名称为职业名称、机构名称、人名、地名、商品名称、专有名称中的至少一种;和/或
所述修饰词语为副词或形容词;
所述装置还包括统计模块,用于执行以下操作:
对所述实体名称进行频次统计,确定每个所述实体名称的频数;
对所述关键短语进行频次统计,确定每个所述关键短语的频数;
对同一个关键短语之后最近的修饰词语进行频次统计,确定每一修饰词语的频数;以及
所述输出模块还用于根据实体名称的频数、关键短语的频数和修饰词语的频数,按照实体名称、关键短语和修饰词语的顺序输出针对所述中文文本的要义信息。
6.一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器执行本申请上述权利要求1-4中任一项所述的用于获取中文文本要义的方法。
7.一种处理器,所述处理器用于运行程序,其特征在于,所述程序运行时执行权利要求1-4中任一项所述的用于获取中文文本要义的方法。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京国双科技有限公司,未经北京国双科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811287057.9/1.html,转载请声明来源钻瓜专利网。