[发明专利]基于品类的质量问题场景标签的自动标注方法在审
申请号: | 202011519354.9 | 申请日: | 2020-12-21 |
公开(公告)号: | CN112579776A | 公开(公告)日: | 2021-03-30 |
发明(设计)人: | 郑赛乾;刘阳;吴科;吴立楠;徐懿 | 申请(专利权)人: | 北京智齿博创科技有限公司 |
主分类号: | G06F16/35 | 分类号: | G06F16/35;G06F16/36;G06Q30/06 |
代理公司: | 北京远大卓悦知识产权代理有限公司 11369 | 代理人: | 靳雪华 |
地址: | 100020 北京市朝阳*** | 国省代码: | 北京;11 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 基于 品类 质量问题 场景 标签 自动 标注 方法 | ||
1.一种基于品类的质量问题场景标签的自动标注方法,其特征在于,包括以下步骤:
S1、质量描述词挖掘:以预先构建的保存有基础描述词的基础词典为基础,将已知语料中的所有词汇作为候选词与所述基础描述词进行比较,筛选出所述候选词中的质量描述词,并将所述质量描述词添加至所述基础词典中,以逐步扩充所述基础词典,形成质量描述词库;
S2、商品品类构建:将商品分类形成商品品类;
S3、商品和质量描述词映射:遍历已知语料,通过商品和质量描述词的描述关系将各个商品与质量描述词进行对应;
S4、质量描述词的分类标签标注:以商品品类为单位,为商品品类下的每个质量描述词打上对应的分类标签;
S5、基础支持数据库构建:将所述商品所属的商品品类,以及所述商品品类下标注分类标签后的质量描述词以图结构的形式存储下来,形成基础支持数据库;
S6、商品和质量描述词修饰关系确定:通过商品的名称和质量描述词间的距离判断输入文本中的商品和质量描述词间是否为修饰关系,若距离小于预定的阈值M,则认定所述商品和质量描述词间为修饰关系,并进入S7,否则将所述输入文本丢弃;
S7、商品质量问题确认:由S5构建的基础支持数据库中找到输入文本中包含的商品所对应的分类标签。
2.如权利要求1所述的基于品类的质量问题场景标签的自动标注方法,其特征在于,S1前还包括:
S0、未登录词挖掘:利用NLP对已知语料进行挖掘,从中发现未登录词;其中,所述未登录词指随时间推移发展出来的新词汇,以及特定领域内的专有词汇。
3.如权利要求1所述的基于品类的质量问题场景标签的自动标注方法,其特征在于,将已知语料中的所有词汇作为候选词与所述基础描述词进行比较,筛选出所述候选词中的质量描述词,并将所述质量描述词添加至所述基础词典中,以逐步扩充所述基础词典,形成质量描述词库包括:将已知语料中的所有词汇中的实体名词剔除后,剩余的词汇作为候选词分别与所述基础描述词进行余弦相似度计算,得到每个所述候选词与基础描述词的相似度集合,当所述相似度集合中大于预先设置的阈值T的数量超过预设的限值N时,判定所述相似度集合对应的候选词为质量描述词,并将所述质量描述词添加至所述基础词典中,以逐步扩充所述基础词典,形成质量描述词库;
其中,预设X次循环用于筛选出所述候选词中的质量描述词;前X-1个循环T和N设置为高值,并将通过高值T和N筛选出来的质量描述词直接加入所述基础词典,第X个循环前将T和N设置为低值,并将候选词与已加入前X-1个循环筛选出的质量描述词的基础词典中的基础描述词进行比较。
4.如权利要求1所述的基于品类的质量问题场景标签的自动标注方法,其特征在于,S2中将商品分类形成商品品类具体包括:
从现有电商平台拿到所需要的商品名称以及商品所对应的品类,而后对品类进行调整后形成所述商品品类。
5.如权利要求1所述的基于品类的质量问题场景标签的自动标注方法,其特征在于,S3中遍历已知语料,通过商品和质量描述词的描述关系将各个商品与质量描述词进行对应具体包括:
通过依存句法分析并判定商品和质量描述词是否为修饰关系:
S3-1、对输入文本进行句法分析生成初级句法树;
S3-2、逐个判断所述初级句法树中是否包括除商品和质量描述词的对应关系外的其他主谓关系,以及与其他主谓关系中的成分是否存在并列关系;是,则将所述句法树根据主谓关系进行切割,形成终级句法树;否,则将所述句法树作为终级句法树;
S3-3、判断所述终级句法树上的商品和质量描述词间的距离是否小于预设的距离阈值;是,则判定商品和质量描述词间为修饰关系;否,则判定商品和质量描述词间不存在修饰关系。
6.如权利要求1所述的基于品类的质量问题场景标签的自动标注方法,其特征在于,S4中以商品品类为单位,为商品品类下的每个质量描述词打上对应的分类标签前,还将每个商品品类下出现过的质量描述词进行统计,并将质量描述词与所述商品品类的特点,以及所述商品品类下所有可能出现的质量问题相结合,形成分类标签。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于北京智齿博创科技有限公司,未经北京智齿博创科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/202011519354.9/1.html,转载请声明来源钻瓜专利网。
- 上一篇:一种模拟摩托车龙头的装置
- 下一篇:用于弹簧床垫的自动组装生产工艺