[发明专利]基于NLP和企业信息的智能造词方法在审
申请号: | 201811278241.7 | 申请日: | 2018-10-30 |
公开(公告)号: | CN109471926A | 公开(公告)日: | 2019-03-15 |
发明(设计)人: | 林正春;姜允志;王静 | 申请(专利权)人: | 广东原昇信息科技有限公司 |
主分类号: | G06F16/332 | 分类号: | G06F16/332;G06F16/36 |
代理公司: | 北京鼎承知识产权代理有限公司 11551 | 代理人: | 李伟波;韩德凯 |
地址: | 510000 广东省广州市番禺区小谷围*** | 国省代码: | 广东;44 |
权利要求书: | 查看更多 | 说明书: | 查看更多 |
摘要: | |||
搜索关键词: | 匹配函数 文本元素 智能造词 词组 关联度 匹配 建立数据库 企业信息 实时更新 统计表 使用状态监控 准确度 监控反馈 使用频率 成正比 中文 保留 筛选 | ||
本公开提供了一种基于NLP和企业信息的智能造词方法,包括以下步骤:A、建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;B、建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;C、对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;D、对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。本发明能够解决现有技术的不足,有效提高了智能造词的效率和准确度。
技术领域
本公开涉及人工智能技术领域,尤其是一种基于NLP和企业信息的智能造词方法。
背景技术
NLP(自然语言处理)是近些年兴起的人机交互方式,广泛应用于语音识别、语言生成、机器翻译等多个领域。在各类商用数据库应用中,为了提高通讯效率,需要事先对常用词汇进行统计和存储。利用NLP技术自动生成词组成为了近些年研发的热点。
发明内容
本公开要解决的技术问题是提供一种基于NLP和企业信息的智能造词方法,能够解决现有技术的不足,有效提高了智能造词的效率和准确度。
为解决上述技术问题,本公开所采取的技术方案如下。
一个方面,一种基于NLP和企业信息的智能造词方法,包括以下步骤:
A、建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;
B、建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;
C、对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;
D、对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。
根据本公开的一个实施方式,步骤A中,关联度统计表包括任意一个文本元素与其它任意一个文本元素的单维关联度,以及任意一个文本元素与其它至少任意两个文本元素的多维关联度。
根据本公开的一个实施方式,步骤B中,首先使用单维关联度对匹配函数进行线性变换,然后使用多维关联度对匹配函数进行非线性变换。
根据本公开的一个实施方式,步骤C中,使用词组中各文本元素的匹配命中率对词组可靠性进行计算,
其中,h为词组中各文本元素的匹配命中率,R为词组可靠性。
根据本公开的一个实施方式,步骤D中,建立匹配函数的权重集合,根据监控反馈,将命中率与权重集合中的权重值进行线性调整。
另一方面,一种基于NLP和企业信息的智能造词系统,包括:
联度统计表更新模块:建立数据库中文本元素之间的关联度统计表,并根据文本元素的使用频率对关联度统计表进行实时更新;
造词模块:建立数据库中文本元素的匹配函数,使用匹配函数对文本元素进行匹配造词,匹配优先级与文本元素的关联度成正比;
筛选模块:对匹配出的词组进行筛选,保留可靠性超出设定阈值的词组;
匹配函数更新模块:对步骤C中保留的词组进行使用状态监控,根据监控反馈对匹配函数进行实时更新。
根据本公开的一个实施方式,联度统计表更新模块中,关联度统计表包括任意一个文本元素与其它任意一个文本元素的单维关联度,以及任意一个文本元素与其它至少任意两个文本元素的多维关联度。
根据本公开的一个实施方式,造词模块中,首先使用单维关联度对匹配函数进行线性变换,然后使用多维关联度对匹配函数进行非线性变换。
该专利技术资料仅供研究查看技术是否侵权等信息,商用须获得专利权人授权。该专利全部权利属于广东原昇信息科技有限公司,未经广东原昇信息科技有限公司许可,擅自商用是侵权行为。如果您想购买此专利、获得商业授权和技术合作,请联系【客服】
本文链接:http://www.vipzhuanli.com/pat/books/201811278241.7/2.html,转载请声明来源钻瓜专利网。