当前位置:[首页 > 日语考试 > 学习经验 > 百度喻友平:AI发展的本质是深度学习的应用]

百度喻友平:AI发展的本质是深度学习的应用

发布: 2018-01-14 04:02 | 来源:www.jptranslate.com | 查 看:

  日前,百度AI技术生态部总经理喻友平公开表示,AI发展的本质是深度学习的应用,百度在这一领域具有多年的经验,早在2013年,百度就成立了深度学习研究院,深度学习也渗透到了百度的各个环节。2016年,百度开放了首个开源框架PaddlePaddle,百度希望通过彻底开源,对业界提供更多帮助。

  以下为演讲实录:

  喻友平:

  今天我要讲的题目是“百度深度学习开源平台的演进、实践与思考”。

  相信在场各位都听说过百度的深度学习框架PaddlePaddle,今天主要给大家介绍一下PaddlePaddle在公司内部应用、开源的情况和它的特点。这一轮人工智能的浪潮本质是深度学习带来的。在深度学习的应用下,我也会重点介绍百度AI的开放战略。

  人工智能只有60年的历史,在它的发展过程中经历几次高潮,但都没有发展起来,一些小波动过去以后,又消失了。最近几年人工智能的发展是真正落到了工业领域,有真正可以实际应用的产品。最主要的原因是数据采集能力得到有效的提高。这是第一个要素,也就是所谓的有大的数据。第二个原因是有大的计算能力,比如GPU等新的硬件出现。此外,还出现了深度学习的算法,可以从过去处理不了、加工不够的数据中提取出更多有效的信息。这一轮人工智能的快速发展,深度学习的广泛应用,最核心的是要有数据、算法和计算力这三个条件。恰巧,这三个条件,在近两年中都全部具备。

  这也是跟互联网快节奏相关,有了PC互联网,再到移动互联网。移动互联网采集数据的速度迅速,储备的信息量巨大,可有效地推动人工智能的发展。其中,深度学习在互联网领域的应用最多。工业和其他领域的同行与互联网行业的人对深度学习的了解和热爱是很难相比的。这也说明互联网行业在数据采集和数据应用方面更加便利。

  人工智能也受到国家层面的关注。国务院于2017年7月发布了《新一代人工智能发展规划》,将人工智能开源软硬件技术平台作为非常关键的内容。深度学习框架在人工智能产业链中是非常关键的一环。因为它下面承接的是硬件,无论是服务器上的硬件,还是端上的硬件。最近,端上的硬件也非常火热,它的上面是各类应用。深度学习最典型的应用场景,包括语音、图像、语言处理、大数据等等相关领域。这些都是在这个大背景下出现的。深度学习框架起到承上启下的作用,而且关键算法都沉淀在这个平台上,它对产业链的影响力是非常大的。在国家层面上,深度学习框架也是发展人工智能的重要因素之一。

  据了解,目前有几家公司都推出了深度学习框架,深度学习框架同时也是国家战略的一部分。百度于2016年9月份正式开源了深度学习框架PaddlePaddle。我们的开源时间稍微晚一点,但发展速度还是比较迅速的。深度学习框架也是国家人工智能战略的重要组成部分。

  PaddlePaddle的意思是“并行分布式的深度学习”这几个字母的简称。因为Paddle已经被人注册了,我们提议叫PaddlePaddle,会更有趣,也更容易记忆。所以在正式开源的时候就把它叫做PaddlePaddle。我们的目标是希望做一个最能满足中国开发者需要的开源深度学习平台。百度作为国内的公司,我们可以感受到因国情的差异,国内开发者的需求也会不同。

  近期,百度在以下几个方面取得了进展。一是社区方面的发展相当迅速,因为社区框架是一个开源的平台,它需要社区的支持,需要更多的开发者来平台上贡献模型,也需要有更多的厂商来支持这个框架。二是易学易用,任何一波技术浪潮的到来,刚开始的技术都显得非常深奥,只有少数人知道,少数人可以理解。随着技术的发展,它的门槛才会慢慢降低。开发者不需要了解里面深奥的算法,只需要了解外面的表层接口就可以加以应用,这是任何一个技术的发展历程。PaddlePaddle在简单、易学易用方面做了大量工作。三是工业应用,对于应用者来说,缺乏好的数据是无法写出一个好的模型,然后再跑数据,而这种问题在开发者中是普遍存在的。百度内部拥有经过大量的数据洗涤之后的模型,这也可以帮助开发者们快速上手,将好的模型应用于他们的产品中。

  PaddlePaddle开源框架的基本特点和应用环境主要包括训练部分和预测部分。训练的时候可以通过很多方式调用,比如通过浏览器、客户端。PaddlePaddle的计算资源池和数据资源池,也起到了很好地支撑作用,现在集成了CNN、RNN等多种神经网络及深度学习算法,同时支持CPU、GPU、FPGA等硬件。此外,我们跟英特尔、英伟达也达成了合作。最重要的是它支持大规模稀疏训练,上亿级的特征都是可以得到支持。PaddlePaddle是并行分布式深度学习的平台,支持多机多卡并行、数据并行、模型并行等等特征。在大规模分布式计算领域,率先支持Kubernetes。也支持私有化的部署。