在美国东海岸微软云数据中心,代码总量超350G的ChatGPT正飞速推衍,开启人工智能应用新时代。那么,技术人员如何看待ChatGPT?如何将相关技术应用于企业服务?
本期“行业新焦点”,我们采访了上海上讯信息技术股份有限公司(以下简称“上讯信息”)产品总监李玉亮,听他讲述上讯信息利用深度学习技术,打造企业级数据搜索引擎的研发历程。
从量变到质变,深度学习技术是关键
近期,由ChatGPT引发的话题长期霸屏。在李玉亮看来,ChatGPT的爆火并非一蹴而就,而是经历多年积累,相关技术实现了从量变到质变突破的必然成果。
算法、算力和数据是人工智能的三要素,缺一不可。算法是人工智能的基础,ChatGPT背后的框架则是深度学习技术。2017年,谷歌发布全新自然语言处理模型架构Transformer,取代此前主流的卷积神经网络、递归神经网络,并逐渐衍生出新的深度学习模型训练机制,即预训练+微调模型。这一模型使得深度学习技术应用效果实现质的飞跃。在算法一步步迭代革新、全球算力水平大幅提升以及大量数据训练的加持下,ChatGPT最终进化到令人惊叹的程度。
.jpg)
值得一提的是,深度学习技术不仅能让对话变得更加智能,在其他领域的应用成效也十分突出,数据治理便是其中之一。早在企业成立前,上讯信息团队已在IT领域深耕多年。2010年,上讯信息在上海浦东软件园注册创立,并设立研发中心,逐渐形成自主研发产品、国外一线安全产品增值分销、安全服务三大主营业务体系。李玉亮正是在这一时期加入上讯信息,开始基于领先技术研发数据治理、数据智能产品。
打通关键节点,打造企业级数据搜索引擎
数据是数字经济时代的关键生产要素。2023年初,《数字中国建设整体布局规划》(简称《规划》)印发,首次对数字中国建设提出宏观规划。李玉亮说道:“《规划》提及要夯实数字基础设施和数据资源体系两大基础,数据在数字中国建设中的重要性不言而喻。在企业的经营中,数据同样被视为新时代的‘石油’,其价值的开发利用是企业数字化转型成功与否的关键,但恰恰在数据搜索这一关键环节,难点颇多。”
.jpg)
企业数据量庞大且增长快速,往往分散在不同的部门、数据库甚至数据中心,数据分析师查找所需数据时无异于大海捞针。在此背景下,上讯信息着力打造企业级数据搜索引擎——数据智能平台DIP。该平台以深度学习技术为核心,通过数据目录、数据服务和数据访问三大功能组件,提供企业数据资产目录自动化梳理、智能数据分类分级保护、全局数据搜索推荐、统一数据申请审批和安全数据访问等一站式服务,让数据使用既安全合规又便捷高效。
.png)
李玉亮特别提到:“借助业界先进的AI算法,在上讯信息数据智能平台DIP中,数据消费者不仅可以通过关键字进行数据查找,还可以通过数据查找数据,甚至通过智能推荐查看关联数据。‘以数搜数’是上讯信息的一项革命性技术。”
探索永无止境,加速数据消费时代到来
随着《数据安全法》和《个人信息保护法》的陆续颁布和实施,数据分类分级保护成为重要的监管要求。企业中的重要数据和个人信息存在于不同的字段里,利用人工打标签的方式进行数据分类分级,成本高且耗时长,即便使用自动化分类分级工具,也仅仅只有20%-30%的准确率。李玉亮表示,使用DIP后,数据分类分级准确率可提升至80%-90%,在重点数据分类分级中,准确率还将更高,帮助企业节省大量的人力和时间成本。
.jpg)
在谈及DIP相较于传统数据治理产品的领先之处时,李玉亮说道:“DIP摒弃了物理归集模式,采用逻辑归集方式实现数据高效利用,具有轻量化、成本低、易于部署等优势。”以数据消费者而非数据管理者为服务对象,DIP始终以解决数据查找难题为目标,在AI技术与深度学习技术的创新应用方面处于国内领先地位。目前,DIP已在制造业、金融业和大型国企、央企中落地应用。
李玉亮认为,未来是数据消费时代,数据搜索则是数据消费的第一步,DIP的使命是让数据消费更高效、更便捷。探索之路永无止境,上讯信息将持续深化深度学习、知识图谱等技术在数据搜索引擎中的研发应用,让数据搜索更精准、智能推荐更全面,助力企业释放数据价值。