从试验品到产品:AutoML是如何一步步贴近产业应用的?

  • meiyutsh.cn   来源:渺渺网   2020-06-29 04:17:28  

编者按:人工智能发挥巨大的生命力需要场景应用。从智能语音客服到刷脸进站,AI已经在不同领域深耕。AI可以为传统行业转型升级,而传统行业由于缺乏AI人才限制了发展的脚步。AutoML将从技术层面解决这一难关?


今天AI在世界范围内的发展情况,可以用一路绿灯来形容。国家层面的高度重视与科技巨头的全力投入齐头并进,正让AI如同开了挂一般快速进入产业场景。不知不觉间,工厂里开始引入了计算机视觉解决方案,电话中与我们对话的客服变成了机器人。

如果说在这样绿灯全开的情况下,还有什么在阻碍着发展,恐怕就只有知识门槛带来的AI人才缺失了。根据高盛推出的《全球人工智能产业分布报告》:2017年全球AI人才储备中,中国只占5%左右。而这些人才大多只在科技企业间流动,对于传统行业来说,大多都与AI人才无缘。而AI产业化的对象,恰恰也是这些传统产业。如何帮助传统产业突破人才桎梏,降低应用AI技术的门槛,是AI产业化当下重要目标之一。

除了支持AI人才培养之外,我们也一直在尝试从技术角度解决这一问题,AutoML技术——自动化机器学习就是解决方案之一。简单来说,AutoML的目标是降低企业用户、开发者以及研究人员使用AI相关工具和框架的门槛,即使不懂如何搭建神经网络、不懂如何调参,也可以使用AutoML工具搭建出应用级的机器学习模型。

除了谷歌、微软、亚马逊这些海外科技企业在AutoML中投入颇多以外,我们也能看到越来越多的中国企业加入了AutoML的队伍。

从一场竞赛,到AI产业化的广袤沃土

在今年亚太知识发现和数据挖掘会议(PAKDD)举办的AutoML比赛中,深兰科技DeepBlueAI团队从46个国家(地区)的队伍中脱颖而出,击败了微软亚洲研究院推出的MLintelligence获得了第一名的成绩。

这次DeepBlueAI最大的一个亮点,就是将概念漂移的解决方案引入了AutoML中,所谓概念漂移,指的就是在机器学习中随着时间推移,目标变量以不可预见的方式发生着变化,导致未来数据分布与已有数据分布不一致。也就是说在AutoML快速建立好机器学习模型后,模型的精度是可能随着时间推移而下降的,这种情况显然会影响现实场景中AutoML的应用效率。

Feedback phase

DeepBlueAI团队给出的解决方案,是通过融合不同时期的数据以及结合DNN和LightGBM的训练,加上自适应采样来缓解类别不平衡,在一定时间间隔中让模型重复训练,最终形成对概念漂移的自适应。形成生命力更强、更具持续性的终生自动化机器学习工具。

DeepBlueAI团队对于概念漂移问题的解决,不仅仅在技术角度具有极高的突破性,在AutoML的产业应用的道路中也给予了很大的推助力。

AutoML面向的对象,大多是对AI技术了解不多的企业应用者。这一类应用者显然不会意识到AutoML中所存在的技术问题,他们很可能会在应用场景出现问题时才发现模型精度产生了变化。DeepBlueAI团队的解决方案,极大增加了AutoML对于复杂场景的适应性,让AutoML可以进入金融、营销、智能驾驶等等要求更丰富的场景之中,也因此进一步降低了企业应用AI的门槛。

可见DeepBlueAI并不是针对竞赛的一份试卷答案,而是真正把目标投向了AI产业化的广袤沃土。

当AutoML从试验品走向商品

除了PAKDD的竞赛以外,很多科技企业也已经推出了自己的AutoML平台。例如谷歌推出的针对图像识别的AutoML Vision,以及亚马逊推出的Amazon SageMaker等等。从AI产业化的命题来说,拥有应用环境自适应能力的这套解决方案会对AutoML造成哪些改变?

首先,深兰科技可以帮助AutoML真正的去解决更多产业问题。

目前市面上的AutoML平台,大多只是试验性甚至偏娱乐化的,缺乏对于产业应用场景的深入适配,通常只能让开发者利用模型开发出一些诸如“宠物情绪识别”“桃子甜度识别”等等简单的模型。

DeepBlueAI团队意识到了模型精度的变化问题,自然是站在了产业视角看待问题,未来AutoML平台也将从单纯的开发场景逐渐贴近产业场景,更关注模型精度、应用环境等等现实问题。

同时,深兰科技对基础技术的全面投入可以帮助AutoML进入更多产业领域。

除了深度学习框架开发以外,深兰科技对机器视觉、生物智能识别、智能驾驶等等领域都有所投入。针对各种AI技术在自动化过程中,架构组建上的细化差异都有更深入的理解,加之强大的算法应用化能力,深兰科技足以让AutoML从一个面向开发者的工具演变成真正商业化、甚至定制化的企业AI解决方案。

目前深兰科技的AutoML技术已经广泛应用在精准营销、金融风控、自动驾驶、疾病预测等业务场景中,做出了接近甚至超过数据科学家的模型效果,决策精准度超过人类专家数倍。

总的来说,建立在深兰科技的综合AI能力之上,AutoML正在从试验品走向产品,进一步契合产业应用的真实场景。

曙光之前:为什么中国需要腰部力量?

除了AutoML对于当前AI产业化的意义之外,我们更想讨论的,是深兰科技这家企业在PAKDD取得成绩更深层的意义。随着中国AI在世界范围的竞争力不断提升,中国团队在各种学术会议上取得好成绩并不是什么新鲜的事情,为什么深兰科技这家企业值得我们投入更多关注?

我们可以看到,深兰科技身上有两个明显的标签,一个是 “中国自主研发”——深兰科技与多家国内外知名企业、高等院校以及卢森堡国家实验室合作,建立联合实验室,一直在AI科研上有着诸多投入。另一个是“基础研究+应用开发”——除了科研以外,深兰科技已经将技术输入到智能驾驶、智能机器人、AI city等等九大应用领域之中。

两者结合起来,就是典型的中国AI腰部力量。除了BAT这样在头部引领中国AI发展的巨头,更多的是像深兰科技这样,将AI创新能力源源不断地输入到细节应用场景之中。

腰部力量对于AutoML的掌握,对于今天我们的来说至关重要。

近年来有一个流传颇为广泛的概念叫:AI民主化,指的是让更多中小企业可以开发出属于自己的机器学习算法模型,而AutoML就是符合这一精神的产物之一。随着AI民主化概念的普及和AutoML技术的日趋成熟,产业中大范围应用起AutoML工具已经是一种必然。

但从谷歌AutoML的案例中也能发现,伴随算法模型训练工具捆绑销售的,很可能还有计算芯片或云计算服务。一家企业选择了一个AutoML平台,同时也意味着将自己的AI技术与平台背后的企业相绑定。

这时中国AI腰部力量对于AutoML的参与就起了两个至关重要的作用。

一方面,中国智造可以保证算法工具以及芯片硬件、云计算等等配套服务的自主可控。尤其很多企业的算法模型会涉及一些商业机密以及敏感数据,如果将这些数据和模型部署到海外企业的云平台中,多少会增加一些风险。

另一方面,腰部企业对AI产业化的参与,可以增强行业的多样性,防止AI产业化被科技巨头“垄断”从而促使AI霸权主义的出现。产业在接入AI服务时可以拥有更多选择,会促进AI领域的发展活力,以良性竞争的模式推动巨头与腰部企业一同为产业提供更优质的技术服务。

如今在AI赛道上狂奔的跑者们,无一不见到了的黎明曙光。在抵达终点的过程中,腰部企业的存在如同一位联结者,与头部巨头们并行向前的同时,不断招揽着路边观望的人,让他们一同加入队列,向AI的明天奔去。

AI产业化黎明的到来,或许并不是一条分割两个世界的终点线,而会降临于让更多人参与AI赛道的过程之中。