原创
作者:王雪燕 2017-11-28 15:16:47
云计算 由51CTO主办的第十六期以“Tech Neo”为主题的技术沙龙邀请了来自去哪儿网的DevOps工程师叶璐老师。她给大家带来了关于深度学习的兴起原因、去哪儿网的深度学习应用实践以及构建GPU云应对资源使用问题的分享。
创新互联是专业的内江网站建设公司,内江接单;提供网站设计、成都网站设计,网页设计,网站设计,建网站,PHP网站建设等专业做网站服务;采用PHP框架,可快速的进行内江网站开发网页制作和功能扩展;专业做搜索引擎喜爱的网站,专业的做网站团队,希望更多企业前来合作!
【51CTO.com原创稿件】今年,深度学习领域最火热的消息莫过于:AIphaGo 0:3打败柯洁、AIphaGo Zero在没有人类干预的情况下,通过自我学习及少许训练***击败AIphaGo。由此,我们可以看到深度学习发展之迅速。深度学习是机器学习的一个领域,其概念于上世纪60年代被提出,但当时并没有掀起太大波澜。那么,为什么在当下又重新走近大众的视野呢?
近日,由51CTO主办的第十六期以“Tech Neo”为主题的技术沙龙在北京举行,此次活动邀请了来自去哪儿网的DevOps工程师叶璐老师。她给大家带来了关于深度学习的兴起原因、去哪儿网的深度学习应用实践以及构建GPU云应对资源使用问题的分享。
当下,深度学习从大学实验室和***IT公司走向大众,诸多公司通过深度学习技术解决实际中遇到的问题。深度学习主要的特点是具有多隐层,随着隐层不断叠加,效果随之不断的提升。
深度学习兴起的原因,主要有以下三点:
GPU是深度学习的加速器,因为在GPU出现之前,一个实验可能需要等几个月,或者跑一天才能发现某个试验的参数不好。现在,优秀的GPU可以在深度学习网络上进行快速迭代,几天就能跑完之前几个月的试验,或者几小时代替之前的几天,几分钟代替之前的几小时。
去哪儿网在深度学习方面的应用有很多, 如机票验证码识别、看图写诗-小诗机、智能客服、“拿去花”用户信用评级、根据历史访问记录推荐酒店、计算不同酒店房型的价格系数、酒店推荐的模型等等。其中智能客服、“拿去花”用户信用评级、酒店推荐是去哪儿网深度学习的经典实践案例。
应用实践过程中深度学习存在一定的共通性,就是输入数据并设置算法,让计算机对我们的世界进行充分建模,从而达到我们所说的“智能”。让机器和人脑一样,能辨别好坏,帮助风控工程师进行风险分析;能迎合喜好,给用户推荐更合适的酒店。而深度学习,让模型变得更加可靠,在数据变化的情况下,模型持续可用。
以前去哪儿网的GPU资源是多个团队共享的使用方式,常遇到某位同事非常愤怒的说:“谁把老子跑了三天的任务杀了!”这样的情况。
GPU的使用资源问题,还有如下几点:
那么,要如何应对GPU使用资源的一系列问题呢?去哪儿网的解决方案是构建GPU云,降低资源使用门槛,提升资源利用率。
为什么选择Tensorflow?GPU云***期的目标是GPU资源云化。业务线的同学能够快捷定制机器学习应用,秒建秒删,一键释放GPU资源,建立统一GPU资源申请和管理等入口到Portal,降低业务线同学的接入和学习成本。做到环境隔离的同时又能保证训练数据在分布式环境下的持久化和可靠性,以及支持Tensorflow全工具链。
为什么是Tensorflow呢?构建GPU云初期之所以选择Tensorflow,是因为开源且使用的人相对比较多,社区的活跃度也相对较高。并且在中后期,Tensorflow也会支持其他的用于数值计算的软件库。
如下图,是Tensorflow与其他社区Issue和Pull Request量对比:
如下图,是Tensorflow的一段Mnist代码:
这段Mnist代码总共只有149行,没有多余的代码,且还包含一些注释。短短的代码,定义了两个隐层,并构建了一个softmax回归模型,工程师不用再担心底层的实现,更专注于模型本身。
如下图,是Tensorboard部分截图:
Tensorboard是Tensorflow全工具链之一,研发人员在可视化的情况下,既可以对模型进行调优,也可以直观方便地看到模型的训练效果。
如下图,是机器学习应用部署的示意图,大家可以直观的看到两台机器Server1与Server2。
在OPS Namespace下,部署了一个分布式的Tensorflow集群,这个Tensorflow集群可以跨两台机器。Fight Namespace下是一个机票的应用,选择的是单机部署。
如下图,是一个GPU实例初始化的过程:
研发人员可以自主选择符合的模型来定义应用,生成一个面向K8S的资源定义文件。去哪儿网在资源类型上,选择的是Deployment,剩下的调度和和应用初始化工作根据这个文件完成。
对于机器学习来说,数据存在哪里很关键。去哪儿网提供给开发者的是同时支持Ceph、块存储和对象存储,这样不仅提高了数据使用的灵活性,同时还能支持在线扩容。
去哪儿网为用户提供的是Jupyter,选择Jupyter是因为对于算法工程师来说,容易上手。
如下图,是Jupyter使用界面:
Jupyter Notebook提供了网页版的代码编写运行平台,背后由Python ikernel支撑,可以选择不同的Python版本,而且同一个应用的负责人能协同编辑。
目前GPU云一期已经完成,并且正在公测中,使用前后的对比结果如下:
GPU云的基础环境固化,让开发同学免受环境安装之苦是***期的目标。现在Spectrum第二期也在开发中,开发工程师可以自定义环境模板,这样不仅仅提供了更高的环境定制自由度;同时Tensorflow serving的上线,为机器学习真正落地提供了更完整的pipeline。其他的优化包括,完善上下游的数据获取管道,预处理流程优化,Jupyter插件系统集成等等。
【嘉宾简介】
叶璐,去哪儿网DevOps工程师,机器学习云平台负责人。主要工作涉及Qunar私有云平台建设、运维、容器云落地等方面。
【51CTO原创稿件,合作站点转载请注明原文作者和出处为51CTO.com】
分享题目:去哪儿网基于Kubernetes/Ceph的GPU云平台实践
文章源于:http://www.gawzjz.com/qtweb/news21/202321.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联