旷视天元深度学习框架开源发布会

图文直播

赵立威

我想给大家分享最后一个案例，其实来自于我们一个非常紧密的合作伙伴，太极。太极公司是国内软件和信息服务的龙头企业，也是数字化服务的国家队，在过去的很多年里，旷视科技和太极公司一直保持着技术层面的广泛合作，合作我们可能不光渗透在智能应用领域，我们也希望共同打造新一代的人工智能深度学习平台，可以推动新型的AI基建基础设施建设，可以更好的服务国内的政府，包括各行各业的企业客户，加快他们的创新应用速度，减少重复投资，真正实现保护客户和政府前期的投资。除了技术层面的合作，旷视和太极公司也在不断的加强共赢的商业生态模式的探索，去希望实现商业价值的持续创造。
赵立威

基于上述我们对整个AI在使用过程中，我们现在面对的一些困难和挑战，旷视今天也跟大家介绍一下我们新一代AI生产力平台Brain++，整个Brain++这个平台由三大模块组成的，前面田忠博跟大家分享了旷视天元，今天我们把它隆重的开源出来，这是一个训分一体，动静合一，灵活高效的一个深度学习框架，除了这个框架本身，我们整个平台还包括数据管理平台、深度学习云计算平台，（这个三位一体，我们不能对算法、算力和我们的数据，但）三位一体的一个我们的生产力平台就可以真正做到一站式、全流程的覆盖。但在这个过程里边，不管我们在早期的数据的抽取、清理、标注和管理的过程，还是包括我们整个三维平台分布式的这些计算资源，我们资源调度，包括我们整个模型的训练、推理以及部署，整个这样一个全过程，我们都可以进行有效的管理。当然我们不仅关注我们的云上场景，在物联网快速发展的今天，我们也关注云端、移动端，包括边缘计算，我们所有业务能够高效开展，在整个Brain++平台之上，基于我们在过去五六年在深度学习方面积累的很多经验，我们也会非常愿意分享我们在专业咨询、数据生产、模型优化，乃至整个平台运维建设、网站AI生产全流程相关的所有服务，给到我们的企业合作伙伴，包括我们广大的开发者。
赵立威

这边我们从整个AI的应用全流程角度，简单的分析一下我们现在遇到的共性问题，第一个可能就是如果我们一个AI项目组第一天开始工作的时候，就会发现我们怎么去搭建这个平台，我们的工具很有可能是东拼西凑，为了搭建这些平台，为了凑齐这些工具，很可能需要几天甚至超过一周的时间，那么这些工具搭建好了以后，我们可能又会发现有一个顾虑，我们有这么多的数据是吧？这些数据怎么保证外传或者使用过程中不会泄漏数据隐私，当然可能我们用的这些数据、这些平台，我们把这个模型训练到一定精度以后，在实际生产过程中，你会发现很多模型的效果，因为我们缺乏一个很好的工具，或者一个贯穿整个数据和模型的使用过程的这样一套方法，让我们的模型在实际生产过程中，难以保证我们精度和其他的性能要求。
赵立威

AI正在加速各行各业的商业创新，我们能够看到在零售、教育、通讯、金融包括工业等等这样一些行业，AI已经不断的在改变我们日常工作方式，同时在公共事业、医疗、智慧城市等等领域，其实AI也已经在潜移默化中改变我们的生活方式。但如果我们关注过去三四年AI的发展历程，我们会发现在各行各业里AI的落地过程中马太效应还是非常明显的，互联网行业因为他们在算法、算力和数据方面的先天优势，在AI领域取得了快速的发展，但是对传统行业在各行各业AI落地的时候，各种挑战还是非常明显。
赵立威

Brain++是旷视研究院自主研发的新一代AI生产力平台，我们致力于帮助企业、研究机构和广大开发者，优化他们的AI生产效率，不断的规范我们AI生产流程，真正做到深度学习、简单开发。在接下来的几分钟时间里，我给大家简单介绍一下Brain++新一代AI生产力平台的一些新的技术特性，当然更多我想借这个机会跟大家分享，我们很多企业和合作伙伴如何应用Brain++，他们的一些成功故事。
赵立威

旷视云服务业务资深副总裁赵立威
孙剑

最后我再总结一下我们旷视天元的三大特性，第一我们协同设计训得好，第二我们高效系统训得快，第三我们有大规模的能力训得动。
孙剑

第二的话人很多，大家如果同时在做理论这种训练，我并不想把数据给人拷一份，同时的话如果大家很多企业没有想到的话，数据非常大的时候，数据加载其实是个非常大耗时的事情。你这个系统怎么去做这些事情？当然也包括很多用的时候，我的任务可能有很多成功的，闲置的，我怎么样自动的让别的用户能使用我的资源，这里面有一个资源上的问题，这些问题的话，我们今天有一个非常好的答案，是我们的旷视科技新一代人工智能生产力平台，Brain++。一会儿我们同事立威会详细介绍Brain++生产力平台。
孙剑

但你要解决这个问题的话，就要面临一个挑战，这么大的数据，比如说我们数据比之前大16倍，我们也希望用一个大的模型，比如我们用的ShuffleNetV2 Large，这是一个非常大的模型，它比ResNet50要大10倍，10×16意味着我们比一般研究人员要训练大160倍的模型，这里面我们就得助于旷视天元引擎，我们真的训得动，刚才田忠博介绍了我们有高加速的训练，我们有亚线性的技术内嵌在框架中，我们有非常高效的通讯系统，这样的话，我们用8台机器就能非常高速的达到7.5组织的加速度，我这里打个比方，他可以在两天内就完成整个训练。
孙剑

大家可能知道自然语言处理从2018年有一个BERT模型，BERT是自然语言一个大的突破，那我们计算机视觉也有这样一个方向，我们是不是可以做一个视觉BERT训练，用更大的数据，更大的模型，我们发现用Objects365去真正训练一个更好的模型，以至于它这个模型用在不同的任务上，它的推广能力更高，训练速度更快，收敛速度更快，这是一个我们一个非常兴奋的事情。
孙剑

我们今天的话呢，借旷视开源之际，我们最新版的Objects365V2版本，世界上最大或者更大的物体检测数据集，这个数据集有365种常见物体，超过200万张图象，超过2800万个人工标志的框，标这些框是如何让教机器能够识别平常的物体，它是一种教机器的方式。左图是一些典型的图象，里面有非常多非常精细的标注出来，右边分别展示了COCO有多大，我们Objects365V1是多大，Objects365V2是多大，目前Objects365V2在图象数量上是COCO的16倍大小，有这么大的数据集，它会带来非常大的好处。
孙剑
孙剑

优点三：数据大、规模大。第三个特点的话，其实是跟我们数据大规模大有关。我们在去年，旷视科技和北京智源人工研究院联合发布了一个Objects365，大家可以访问这个网站，可以访问这个数据集。
孙剑

我右边打了一个比方，没有这个技术之前，可能训练COCO需要30多个小时，用了我们这个并行训练系统以后，2个小时就能结束训练，而且精度更高，这里面更重要的是说它极大的减少了创新的时间，让我们可以在同样的时间内测试更多的idea，所以的话可以不断的快速的推进我们对计算机视觉一些非常难的问题的认知，所以这是第2个特点。
孙剑

为什么呢？当然就说我们有很多原因，有没有综合研究员，我们对这个问题很有理解，但是其中一个非常关键的优势，我们有旷视天元这样一个训得快的系统，我们这个系统从第一次从框架上引入一个叫做ThinkDn（英）的技术，它能支持非常大的Mini-Batch训练，以至于我们可以非常高速的训练一个系统。
孙剑

在这个任务上需要教计算机能够读懂这张图，比如右边这张图中有几百种物体，需要非常精确的把每一种物体检测出来、识别出来，这个是每年都会举行一个大赛，来衡量一下我们今天的计算机识别算法，AI技术到底前沿在哪里？大家可以看一下这是COCO比赛从2013年开始第一年，大家这里尤其要注意一下，从2017年、2018年、2019年我们旷视科技连续获得COCO比赛的三连冠。
孙剑

优点二，这个孩子非常高效非常强大，这里面介绍一个背景，就说我们做计算机视觉有一个非常有名的一个物体检测和识别挑战赛叫做COCO。
孙剑

我们帮助合作伙伴做了第一款2D人脸识别解锁手机，第一款红外人脸解锁手机，第一款3D人脸解锁手机，今天发布会的现场观众可能有的观众手里的手机就是正在运行我们这个ShuffleNet。
孙剑

我们在自己测，包括第三方测，我们ShuffleNet都取得了非常优异的效果，ShuffleNet今年也在各大流行框架中是一个标准的实践，这个运行速度非常快，非常重要，比如说我们ShuffleNet系列帮助中国手机加速它的智能化。
孙剑

所以其实在我们做深度学习研发中，有一个三角形，这个三角形有三个顶点，一个顶点叫计算设备，每个计算设备是不同的；还有一个顶点是网络结构，还有一个顶点就是我们今天讲的深度学习框架天元，如果你想训得好，做出最好的系统，其实像芯片和算法在一起设计叫联合设计（Co-design），这三个在一起也需要做联合设计，比如说计算设备我们基于各种计算设备连接，我们发现的一些如何在这些计算设备上做更好运行的原理，我在这边列了一些，基于这些原理的话，你不能说直接把网络匹配这个原理，中间需要有个桥梁，这个桥梁就是天元框架，这个桥梁做什么呢？根据这些硬件设备我们可以快速开发一些新的算子，来满足不同计算设备的不同特性，我们能够深入优化自己的算子，让这些不同的算子对不同的设备优化最好，同时我们还可以加一些算子融合，这样的话结合框架、结合设备才能开发出最好的网络，协同设计是非常关键的。这里面我们协同设计的成果叫ShuffleNet，这是我们旷视研究院，最近几年的在端上运行非常高效的一个神经网络的设计，这个设计其实受益于天元框架，受益于我们对这些计算硬件设备的深入理解。
孙剑

为什么呢？其实是因为计算平台差异非常大，基于这样的差异，你就不可能只设计一种网络，能够满足所有的需求。
孙剑

优点一，框架与算法的协同。大家都可以看一下我们今天的深度学习、人工智能的算法应用在不同的计算平台上，有云上、端上的，有各种各样网络的名字。
孙剑

首先先分享一下旷视1400名研发人员，全员使用我们的旷视天元引擎，在上百个产品、几十种计算平台上用，其实旷视天元就像我们的一个孩子，它今年6岁了，我们非常喜欢它，它在我们这个环境中成长起来，我们这个孩子到底养的怎么样，我们为什么非常喜欢这个孩子，今天我介绍这个孩子的三大特色优点：
孙剑

（旷视首席科学家、旷视研究院院长孙剑）
田忠博

欢迎大家访问我们屏幕上的两个网址，Brainpp.megvii.com，以及旷视天元（MegEngine）MegEngine深度学习框架官方网站，MegEngine.org.cn，我们会在天元（MegEngine）网站上、在ModelHub中持续不断增加新的、先进的算法，也希望能够帮助大家更好的进行自己的试用和创造。我们希望这个框架能够帮助大家更好的使用。
田忠博

所以我们相信，以天元（MegEngine）这样一个深度学习框架为基础，我们可以打造新一代的AI生产力平台，让我们所有人都基于这样的平台，更好、更简单地进行AI生产力的研发。
田忠博

为了能够支持更多的计算设备，同时充分发掘他们的计算能力，我们还引入了JIT自动代码生成技术来加速计算。这里可以看到，当我们打开JIT以后，计算速度会有显著的提升，能够得到非常好的效率。另外我们还在MegEngine中内置了自动算法选择机制，大家可以使用这个机制，在不同的设备上自动进行调优，找到适用于这个设备最好的算法实现，实现我们灵活高效的技术目标。
田忠博

我们在这里内置了一个高效的内存优化策略，我们会发现它能够非常好地减少训练时的显存占用，使得我们在同样的设备上可以训练更大的模型，支持更多的算法种类。此外，我们还有很多强大的内存和速度的优化机制。可以看到，这是前面提到的亚线性内存优化。
田忠博

我们会发现在CPU的推理场景下，也能够得到显著的提升和优势。这就说明我们可以同时在训练和推理过程中保持高性能。另外，如果我们要把算法更好地部署在各种设备中，或者在训练时能够利用现有的设备训练更大的模型，支持更多的算法种类，我们会发现显存或者设备的片上内存的使用就是一个非常关键的因素。所以内存的节省也是天元（MegEngine）这样一个深度学习系统所关注的。
田忠博

同时，因为天元（MegEngine）这个系统既用于训练又用于推理，在对比时我们会选取一些在推理方面见长的框架进行对比。
田忠博

在我们进行这样一个框架的设计时，我们会秉持一个原则就是要灵活高效，我们希望在许多的设备、算法上，都能得到领先的性能，我们希望我们的框架能够借助高性能的算子库，充分利用不同设备上的算力。在这里展示的是我们在进行训练时的性能对比，我们和几个参考框架进行横向对比，会发现天元（MegEngine）在主流模型上都有非常不俗的速度表现。
田忠博

另外，大家都知道旷视在计算机视觉领域有一些独特的积累，所以我们也把我们在这方面的成果，融入在了天元（MegEngine）的系统中，我们在这个系统中集成了很多为计算机视觉特别优化的算子，能够使得大家进行计算机视觉研发的时候更加简便。
田忠博

那么，为了简化这个问题，我们在设计天元（MegEngine）深度学习框架的时候，希望它是一个兼容并包的体系。
田忠博

通过这样的方式，我们可以在动态的过程中，非常方便的进行原型的研发和调试，同时当希望在生产环节进行使用的时候，或者我们希望借助更好的静态优化器、静态编译机制，对它进行提速的时候，我们可以借助静态图把它进行提速。在我们测试中静态中提速往往可以达到5%到20%的加速效果，能够减少很多时间，帮助大家提高效率。
田忠博

由这个问题出发，我们在设计天元（MegEngine）的框架的时候，希望能够达到一种动静合一的效果。
田忠博

（1）它无需进行模型的转换，可以直接使用训练后得到的模型进行推理；（2）我们还可以通过这样的机制，保证它在训练实现的速度和精度，能够在推理时是保持一致的；（3）而且当一个模型在训练结束后，需要在不同的设备上进行推理和使用时，该框架也能够保证跨设备的模型精度实现对齐；（4）通过简化流程，天元（MegEngine）框架能够内置一个自动模型优化过程，使得大家进行手工模型遇错处理的机会变得非常少，可以直接自动的使用内置流程，把整个流程简化，形成一个非常高效的研发体系。
田忠博

在训练和推理的过程中，它有这样几个特点：
田忠博

因此，对于我们天元（MegEngine）框架来讲，我们从最初的设计理念上，就希望它是训练和推理一体的，即让它能够同时进行训练，也能够进行推理。
田忠博

痛点四，对于像旷视这样一家进行AI生产的公司来说，可能会面临非常多的设备，面临非常多需要解决的场景。考虑到要能够提供最极致的AI产品和最极致的AI服务，我们需要在这每一种设备上都能打造极致的性能。这对我们来说也是一个非常大的挑战。
田忠博

我们可以看到这是使用天元（MegEngine）框架进行深度学习的代码，它的风格非常像传统的Numpy和PyTorch的写法，因为我们相信我们需要简化整体API的风格，让Python的使用者非常自然地接受，我们希望它是一个Pythonic风格的接口；另外，我们希望它不要有有过多新的概念，延续大家惯常的理解。所以我们在函数的命名风格和参数的设计细节中，都会尊重原有Python社区的传统。
田忠博

我刚才向大家介绍了天元（MegEngine）框架的一些特点：训练推理一体化、动静合一、兼容并包、灵活高效。它们能够实现产品从实验室原型到工业上能够部署的小时级转化能力。利用这些特点，我们能够实现大规模的、弹性的训练，来支撑我们用更大的数据、更大的模型、更好的算法，来为大家提供更好的产品。另外，借助这些特性，以及对它们的不断打磨，天元（MegEngine）框架可以支撑顶级的研究团队进行最前沿的学术开发。
田忠博

下面我为大家展示MegStudio的在线试用环境，下面是一段展示。
赵立威

谢谢孙老师的介绍，我是来自旷视科技的赵立威，大家下午好。
田忠博

这里展示的是天元（MegEngine）框架代码中从动态到静态切换的情况。可以看到，通过使用一个叫@trace的Python装饰器来装饰其中一段函数，使得这段函数具备既可在动态下正确运行，也可以转换到静态形态进行运行的一种状态。我们只需要把开关打开，（enabled 设为 True 或者 False），它就可以在两种模式上正确的计算。
田忠博

痛点二是说，静态图好部署，动态图易调试，二者难以兼得。深度学习框架大致分为两类，一类是以TensorFlow为代表的静态深度学习框架，它非常容易部署，能够很快的变成产品，是现在工业界非常喜欢的部署方式，它的性能高，占用的资源少，但是难以调试；但是在学界大家会喜欢以PyTorch 为代表的动态计算框架，因为这样大家在研究阶段调试会更加方便，使用起来更加灵活。
赵立威

秉持着以客户为中心，为客户持续创造商业价值的理念，我们希望Brain++平台可以真正助力各行各业加智能、加AI，我们希望基于Brain++平台，我们不仅帮助企业客户做到降低AI的使用成本，让AI不要成为我们各个企业的成本中心，我们也非常关注如何帮助我们客户让他们聚焦在各自的业务核心，业务本质上面，帮助我们在产品在业务层面不断的创新，真正让产品可以快速铺向市场，达到降本增效、商业创新的目的。
田忠博

面对这个鱼和熊掌的问题，没有办法让两个特性很好的兼容在一起，我们问自己这样一个问题，这两种计算方式是真的很难兼得吗？我们能否尝试把两种框架的优点集成在一起，帮助我们更好的进行产品研发，进行原型的开发？
唐文斌

好的，谢谢立威。我们到现在发布会已经接近尾声，如果我们把MegEngine，把天元比作一个小孩的话，今天可能是她走出房间去迎接阳光，想为这个社会去做更多事情的时候，同时也希望能够有社会各界的朋友对他有更多的呵护，对他有更多的帮助，我们一起来帮助他真正的成长。我们希望能够携手更多的开发者一起，我们用AI的力量能够去造福更多的场景，造福我们的社会，造福我们的客户。好，我们的发布会就到这里，谢谢大家一个多小时的在线的观看，谢谢大家。
田忠博

到9月份，我们希望天元（MegEngine）的能力能够全面覆盖主流的计算设备；把现有的动态计算能力进行全面升级，让我们动态图的优化做的和我们现在静态的部分做的一样好；希望到那个时候，我们能够优化训练和推理的全流程体验。
田忠博

上图中，我向大家展示了天元（MegEngine）整体的研发路线。正如前面文斌所说的，今天会向大家释放整个天元（MegEngine）深度学习框架Alpha版本，我们计划在6月份的时候能够向大家提供第一个里程碑版本Beta版本。在这个版本中我们希望能够向大家全面提供关于ARM系列CPU的支持能力；同时我们希望在这个版本中，能够引入更多的加速设备支持。我们希望在这个版本中能够给大家提供关于量化和低比特的计算支持，使得大家能够基于天元（MegEngine）框架，进行先进的嵌入式研发。
赵立威

今天先给大家分享了我们的第二个客户成功的案例，其实是中国移动雄安研究院。中移雄研是中国移动集团行业解决方案的能力解决中心，它聚焦在智慧城市解决方案，智慧城市场景是一个非常大的一个概念，这里面通常可能会包括像智慧城管、智慧交通、智慧园区等等很多场景，那么我们如何跨场景让我们不同类型的数据还能够得到高效的利用，包括像中国移动这么大的运营商，它的数据量非常非常巨大，海量的数据，我们怎么帮助中移雄研，在我们这样一个海量数据里面实现数据价值的有效提取。基于Brain++这样一个平台，我们共同打造了一个AI中台，通过这个中台可以有效的帮助中移雄研提升智慧城市的建设能力，特别是我们基于MegData这样一些相关的模组模块，我们可以帮助中移雄研有效的管理数据的安全，保护他们用户的隐私，包括知识产权保护方面的要求，做到了有效支持应用，可以在各个行业的部署和快速的应用。
赵立威

今天因为时间的关系，关于Brain++新一代AI生产力平台上面很多技术细节的分享，我们就没有办法跟大家一一列举了，大家如果关注这些技术细节，特别如果想了解更多客户基于Brain++平台的很多成功故事，欢迎大家访问我们的官网，也欢迎大家致电我们的400电话。那我也想讲，最后，从今天开始你也可以拥有专属的Brain++平台。谢谢大家。
田忠博

值得一提的是，我们在这里还提供一个实验性的功能，大家可以简单地将以往已经写过的PyTorch Module直接导入到框架中，方便大家进行模型的复现，更简单的进行原型系统的开发和实验。
孙剑

各位大家好，非常高兴我今天来分享一下我们如何使用旷视天元做更好的研究。
田忠博

谢谢大家。下面我们会邀请旷视研究院的院长，首席科学家孙剑，孙老师为大家分享，我们在旷视内部如何使用Brain++天元助力旷视的科学研究。
田忠博

第三个痛点，市面上有非常多的框架，每种框架使用的接口都不太一样，这使得当我们进行学术交流的时候，首先要了解它是用什么框架实现的，如果我们要继续它的工作，则需要把这个模型在我常用的环境和框架中再重新进行实现，这对于一般的开发者来讲，这是一个重大的成本，大家需要学习多种框架，才能够更多的了解到深度学习这个行业最新、最好的算法。
孙剑

那么这是我刚才介绍三个特点。我这里还想分享一下，一个人做研究和1400名员工一起做研究的差别。左边是其实我听我们的同事真的花了1400多个小人，大家如果仔细看的话，这里面的挑战有很多，比如说我们更多人同时用一个大的计算机集群，最理想的模式是什么？第一，我们研究员提的要求是说我想去交互训练，我想学习今天来调试，但据我所知，很多大型的计算平台并不是这样的，而是说你交的任务就占完了，中间不能停下来调试，这样的很大的程度会伤害研究员的效率。
孙剑

下面欢迎我们的同事立威，来介绍我们这个生产力平台，怎么引爆了我们AI的生产。谢谢大家。
赵立威

接下来，给大家简单分享我们三个客户和合作伙伴，基于Brain++平台使用AI不断实现商业成功的成功故事。中国是一个制造业大国，国内的制造业企业数以百万计，我们第一个案例给大家介绍的是来自一个国外制造业的大厂施耐德，施耐德是全球顶级工业电气企业，在日常的生产过程中，它也在不断的尝试如何利用AI技术、利用深度学习技术，去实现智能制造的改造升级。传统上我们在最简单的场景，质检场景里，传统上可能多半会使用机器视觉的方式，去替代人工改善质检的效率和精度，但是传统机器视觉的方式，存在着精度差、模型升级比较困难、周期非常长的挑战，在过去几个时间里，我们也积极的和施耐德基于Brain++进行合作，解决在整个智能质检升级改造过程中，因为样本的缺乏，我们整个模型训练精度达不到要求，或者说我们采用了MegEngine旷视天元这样的模型框架现场布置，解决了数据采集，包括模型在现场训练的困难，极大的提升了施耐德整个商业智能制造，特别是质检环节的生产效率。
田忠博

那么我们在使用MegEngine动态图能力的时候，它可能目前是一个还没有非常优化好的状态，它大概可以在一个32Batch左右进行计算；如果我把它转换到静态图的情况下，它就可以支持到64Batch的水平。那么，如果大家希望在这种情况下，训练更大的Batch，训练更大的模型，则完全可以在这里采用我们的亚线性自动内存优化技术，在几乎无降低计算速度前提下，达到256Batch训练能力。而且这个能力随着你的模型变大、变深，它的效果越好，我们在内部有一些评测上，可以实现某些大模型20倍以上的内存节省，速度几乎不变。