建设人工智能计算中心,需要突破哪些难关?
2021/7/12 15:40   新华财经客户端      关键字:人工智能 计算中心 需要 突破 哪些 难关      浏览量:
计算中心建设是推动人工智能技术发展的关键环节。中国科学技术信息研究所不久前发布的行业报告说,目前我国人工智能计算中心建设和运营面临能耗高、企业应用水平较低、芯片及框架等核心技术受制于人等诸多挑战。
  计算中心建设是推动人工智能技术发展的关键环节。中国科学技术信息研究所不久前发布的行业报告说,目前我国人工智能计算中心建设和运营面临能耗高、企业应用水平较低、芯片及框架等核心技术受制于人等诸多挑战。因此,需要构建和完善运营机制,选择自主可控的技术路线,形成有竞争力和成长前景的产业生态。
  7月8日举办的“2021世界人工智能大会”哈尔滨分会场论坛上,与会专家和业内人士就我国人工智能计算中心建设的现状、国内外业态环境、制约发展的掣肘因素和解决方案进行了深入研讨。
  掣肘之一:芯片和框架技术独立发展 相互适配性差
  人工智能作为新一轮科技革命和产业变革的重要驱动力量,被公认是引领未来的战略性技术,也是被各国家竞相抢占的科技制高点。人工智能计算中心建设是顺应人工智能算力需求增长产生的、包含机房等基础设施建设和软硬件设施建设的系统工程,主要应用于人工智能模型开发、模型训练和推理服务等场景。
  中国人工智能学会副理事长王国胤表示,近年来在国务院直接部署下,我国加快人工智能在多领域的基础设施建设与创新应用,人工智能与各行业的深度融合加快,开创了更广阔的发展空间。人工智能领域生机勃发,高水平人才大批涌现。
  业内人士分析,目前限制人工智能计算中心发展的一个重要因素是相关技术各成一体,相互适配性差。由于人工智能算法可选择不同的开发框架,训练和开发人工智能模型也有多种芯片可供选择,人工智能芯片为了满足应用场景与目标算法的不同需求,设计出不同的架构与实现方式。比如,面向语音识别的芯片和用于视觉处理的架构可能采取截然不同的结构和指令集,算法开发人员可能会使用多个框架进行开发,而每个框架中的工作负载都以自己独特的方式表示和执行,有不同的定义方式。
  因此,需要人工智能软件底层为不同的操作做适配,一方面会导致软件的臃肿,影响算法执行效率;另一方面为开发者带来繁杂的工作量,操作难度加大。
  从理论上说,解决这个问题的可行方法之一是把基于不同硬件、不同框架的模型文件编译成统一的、硬件能识别的控制指令集,写入可执行文件,并将他们调度到不同的硬件设备上。中国科学技术信息研究所相关人士表示,尽管业界对此也开展了一些技术尝试,但到目前为止还没有成熟的解决方案。
  掣肘之二:能耗大成本高 限制产业高质量发展
  能耗是衡量计算中心发展水平的重要标尺之一。随着技术进步,计算中心的单位能耗总体呈逐年下降趋势,但随着需求的扩展、体量的增大,计算中心总能耗呈现持续大规模增长势头,导致运营成本大幅度上升。
  随着人工智能、物联网、区块链技术的发展,中国计算中心的总体用电量一度连续8年涨幅12%以上。2018年,国内计算中心的用电总量为1608.89亿千瓦时,占全国用电总量的2.35%,超过上海市用电总量。据中国科学技术信息研究所预估,在信息技术产业大发展前提下,到2023年算力需求将比2019年增长66%,能耗总量将随之提高,高能耗成为制约产业高质量发展的一个瓶颈。
  因此,如何优化计算中心的电能使用效率(PUE),成为一项重要挑战。目前优化方案的主要方向,是建立更多大型和超大型的计算中心。
  目前,我国超大型计算中心的PUE水平为1.5,较整体水平值(2.2)高出31%。通过测算,国内计算中心PUE每降低0.1,每年可节省用电73亿千瓦时,相当于上海市17天的用电量。如果能整体降至超大型计算中心的水平,则可节省373亿千瓦时,相当于减少二氧化碳排放3000万吨。从这个角度看,人工智能计算中心未来节能减排的潜力空间很大。
  预算投资102亿元、总建筑面积37万平方米、今年6月30日在天津市武清区完成了一期部分建设工程的中国电信京津冀大数据智能算力中心,将成为全球核心都市圈规模最大的计算中心之一。据该项目负责人王庆玉介绍,该中心采用分布式锂电DPS(不间断电源)、背板空调、间接蒸发冷却等技术,有效提高空间利用率,配合能源管理系统使供电资源实现按需调度。通过三联供、余热回收等技术,该中心的PUE值预计降低到1.2以下。
  掣肘之三:企业应用水平参差不齐 基础数据集不足
  从我国目前应用情况看,传统产业向智能化转型还面临很多困难,企业的接受和应用水平参差不齐。当前,传统行业技术人员对人工智能概念的理解和算法的掌握还不足以完全支撑智能化改造升级,传统企业内部的算法团队由于自身能力限制,很多处于“小作坊式”的局面。
  业内人士分析,这种“小作坊式”应用开发在早期有其积极的一面,能够带来创新的灵活性,但到了中后期,其局限性就愈发明显,表现在与业界先进水平脱节,重复“造轮子”,无法形成规模化效应,整体投入产出比较低。与此同时,人工智能龙头企业和专业初创企业的先进算法、模型接触不到大量用户,生产力要素无法充分流动,难以形成快速迭代的局面,不能满足实际业务需求。
  因此,需要搭建一个低门槛、开放、端到端的人工智能使用平台,方便传统企业数据技术人员和算法工程师快速便捷利用平台的资源,这也是有效发挥大型和超大型计算中心作用的理由和必要前提。据介绍,正在建设中的中国电信京津冀大数据智能算力中心计划吸引京津及周边地区互联网、金融科技、智能制造、信创产业等大批头部优质企业入驻,预计拉动上下游产业链投资近500亿元。
  人工智能芯片是算力的核心承载。目前国际芯片市场被欧美等少数巨头企业垄断,我国在芯片及框架等核心技术领域落后于发达国家,国内人工智能市场采用的芯片95%以上被美国英伟达、AMD等公司垄断,面临严重的业务连续性障碍、供应安全和“卡脖子”风险,国内高科技企业受到美国打压,发展自主可控的技术成为当务之急。
  哈尔滨工业大学人工智能研究院院长刘劼等相关人士建议,人工智能计算中心建设应依靠政府力量集中牵引和统一规划,面向重点城市规划和建设集中化的计算中心,围绕计算中心打造公共化服务平台,鼓励人工智能企业、科研院所、高校进驻和应用,避免重复建设和分散建设。
  专家们建议,不同领域、产业链各环节企业应加强和深化资源整合,确定核心人工智能芯片和产品路线,选择具备自主研发能力、自主知识产权的厂商作为核心供应商,把技术发展掌握在自己手中;加强数据开放共享,降低门槛,鼓励人工智能资源和能力向地方开放,形成人工智能生产和消费的有效循环;制定配套的激励政策,创造优越条件,培养高水平、有国际竞争力的人才队伍。
 

微信扫描二维码,关注公众号。