大模型时代 数据要素产业链如何参与生态培育?
发布时间:2023-08-25 11:07:16 来源:21世纪经济报道

数字经济时代,国内数据要素产业链的各个环节正在积极将能力融合。硬件端,基于国内GPU芯片平台推进能力积蓄;软件端,则从数据产生前端在数据采集、挖掘、清洗等多层面着手筹备。

2023中国数字经济创新发展大会期间,首都在线副总裁、智算中心事业群总经理牛继宾接受21世纪经济报道记者采访时表示,“首都在线一方面会在国内针对英伟达算力持续投资,做算力业务部署;另一方面也开始与国产芯片公司进行布局合作,首都在线和燧原科技等不少于五家的国内优质芯片厂商合作,并在持续做适配和认证工作。”


(相关资料图)

多名受访者都指出,高质量的精调数据将决定AI大模型的最终能力,要综合运用各类型工具完善这项工作;同时不可忽视是对数据合规性、安全性挑战的前置预防型工作。

构筑大模型底座

当前AI大模型构建过程中,最受关注的就是国内底层GPU为代表的智能计算类硬件能力构建进展。

牛继宾告诉记者,首都在线最早从数据中心业务起步,逐步迭代出云计算能力、新一代智能计算能力。人工智能和元宇宙互相促进,元宇宙更侧重于图形图像的沉浸式,人工智能更趋向于背后智能技术的支撑。牛继宾称,将通过把图形图像业务、GPU算力和服务做迭代升级,打造新一代算力平台。

值得注意的是,当前国内普遍面临着对大模型训练硬件能力紧俏的难题。对此,牛继宾对记者表示,目前英伟达的高端训练芯片国内可以用,但带宽被限制过,即使如此也供不应求。为此,首都在线一方面会在国内针对英伟达算力持续投资,另一方面也开始与国产芯片公司进行布局合作。

“我们已经在无锡开通了信创专区,也会在内蒙古、海南各自开通信创专区。目的是把国产芯片能力逐步引入。在每一个国产芯片的资源池上,都会迭代一种模型服务,最终服务于用户。”牛继宾进一步指出,所以会从英伟达+国产算力,同时做资源池建设,然后引入成熟的模型,去解决算力短缺问题。

仅有算力硬件并不够,牛继宾分析道,单纯建设智能算力业务只是建立了一个资源池,真正要用上这些资源,需要应用驱动,再结合英伟达不同的场景学习、观察,最终导入到不同的国产芯片上,在不同场景中,计划、激活模型训练相关业务。“我们采用应用驱动、网络驱动。可以把这些算力资源制作成服务的形式,最终交付到最终用户。”

数据治理机遇

当前在模型搭建过程中,面临的较大难题是数据处理和清洗等相关工作。

对此,广东天亿马信息产业股份有限公司副总经理林少勇受访时表示,为了处理好海量数据的挖掘,还需要引入一些大数据处理工具,包括分布式存储、离线计算、实时计算等,同时也要有可视化的建模工具,以便更好调整模型参数。也可以借助AI,在数据中发现隐藏的模式和趋势,从而帮助组织进行预测性分析。

同时为了保证挖掘数据的价值和质量,从数据采集方向,可以使用AI技术清洗数据、填补缺失值、处理异常值,以确保数据的准确性。也需通过制定数据质量规则、数据脱敏规则进一步保证数据的质量和合规,同时也建立访问控制和权限管理,确保只有授权人员能够访问特定数据。

在数据治理过程中,林少勇认为,AI可以提供很大帮助,这体现在帮助数据质量提升、智能数据分类和标注、预测性分析洞察和决策等方面。

“举例来说,人工智能可以用于自动检测和修复数据质量问题。比如使用机器学习算法来识别数据中的异常值、缺失值,进行数据清洗和纠正;也可以自动对数据进行分类和标注,帮助识别不同类型的数据,并为数据元素添加适当的元数据,从而提高数据的可管理性。”他进一步指出,在AI的协助下,做好数据治理、提高数据质量,可以反过来将数据提供给AI训练,进一步提高模型的识别率,形成闭环。

深圳数阔信息技术有限公司(下称“数阔”)创始人兼CEO刘宝强也对21世纪经济报道记者表示,当前市场比较缺乏高质量的精调数据,即经过人工标注、清洗、整合的数据。数据质量决定了大模型能力。

应对安全挑战

数字经济时代,更为重要是对数据这一涉及人们生活各方面的要素进行安全性防范。即便是刚刚兴起的AI大模型,在被广泛应用后,很快部分公司便遭遇了泄密挑战。

林少勇对记者表示,AI大模型对于训练的数据要求越来越高,国内还需做好数据标准、数据脱敏、数据安全等工作。

尤其是数据的广泛收集、存储和共享为个人、企业和政府带来了机会,但同时也引发对数据隐私、保密性和安全性的担忧。

“因此公司会从多个层面考虑应对这一难题:强化数据加密、建立访问控制和权限管理、实施多层次防御策略(从软硬件层面)、持续员工培训、运用新技术(如人工智能、机器学习)等。”他续称。

刘宝强则对记者分析,倘若要应用海外大模型,可能会涉及数据被传输出去的情形,目前国产大模型本身底座安全,数据等信息也都留存在国内;同时开源大模型已经从底层源代码开源,因此可自由部署、灵活可控。

近两年来,在企业数字化转型中,受大环境和市场等多重因素影响,企业对这方面的投入愈发审慎。但刘宝强对记者表示,“各行各业对数字化、智能化转型的诉求上升速度很快,即使面临短暂的资源困难,大多数企业都不会停止其数字化迭代进程。”

标签:

X 关闭

X 关闭