专题: 运维之痛
Day of week:
- 星期四
凡是做过运维的人都会抱怨自己遇到的苦逼事情,除了每天战战兢兢,如履薄冰的干活。平时还必须24小时开机,深夜扩容是常态。偶尔还遇到莫名其妙的故障让深究一个下午也找不到根因。
除此之外,还有很多外界不可控因素影响着你的KPI。机房断电,网络供应商线路故障,光纤被挖断,DNS故障,各种网络攻击让你防不胜防。一旦网站规模化之后必须要面对的问题就更加多了,如何节约成本,提升运维成熟度。
运维自动化成为必经之路,让苦逼的让运维工程师在工作中找一些趣味性,不那么无聊,不无聊的有益副作用也是减少人为出错的可能。任何一个成功的站点都离不开一支优秀的运维团队,尽管他们更多时候隐身在网站背后不为人知。
希望通过本次的QCon的运维之痛专题中给大家介绍一些好的流程,工具,点子,管理方式。拯救我们的运维工程师!
网名:陶乐诗。拥有15年的互联网开发和运维经验,曾就职于IBM,eBay,Wal-Mart等公司从事网站运维以及系统开发工作。目前任职于携程网站运营中心,作为系统研发部高级总监,负责网站监控告警及运维工具的开发。在分布式监控系统领域有丰富的实践经验,对于监控系统在大型网站运维体系中的有效应用有深刻的理解。
by 王兴朝
携程开发经理
无线解耦是携程一次里程碑式的架构变迁,而无线Gateway为这次变迁提供了重要的支撑,使其成为可能。
而变迁后,无线Gateway同样为携程稳定性做出重要贡献。
Gateway的职能是负责接收来自无线端的所有API请求,并把他们路由到正确的地方。
提供限流、隔离、熔断策略,保证长期稳定运行,拥有强大的弹性容错机制,很大的减少了日常运维工作。
同时提供了多维度的监控数据,并与报警系统对接,实时监控线上情况,能够发现问题,并识别问题来源,自动通知对应的负责人,尽可能实现了运维自动化。
Gateway是基于Netflix公司的开源项目Zuul再开发的,但我们很好的把它融入了携程的生态体系中。
此次将和大家分享整个产品开发的心路里程,从技术、功能、业务多维度分享我们的收获与感悟。
by 徐盎
饿了么技术运营部总监
在业务量持续陡升、创新不断、生态逐渐丰满的节奏中,扩容是常态每个应用都可能成为系统的瓶颈。如何减少发现、定位时间,如何快节奏里完善技术运营体系?让我们来反思。
- 创业团队各种平台工具各显神通的困局突破
- 自动化与业务高交付压力的矛盾
- 立体化监控实践
by 洪楷
腾讯游戏自研运维中心总监
在游戏业务运维中,涉及MMOGRPG、MOBA、ACG、FPS、ACT、MUG等不同游戏类型,由此而引入了各种异构,运维行业中涌现Puppet、Zibbix、Nagios、Nginx等各种分门别类技术工具。在PaaS、IaaS、SaaS帮运维封装了很多服务,帮助运维降低或者规避风险,除了从工具和云化的平台服务方面帮助业务规避风险,还有那些应该在运维团队中做到?特别在游戏业务的众多异构中有那些手段?传统的运维模式应该如何应对游戏业务转变?运维如何借助业务进行自成长?本次演讲包括:
- 运维规范作为基石必要性,建设过程中会有那些“坑”;
- 基石——腾讯游戏运维白皮书的构成;
- 日常运维中规避“黑天鹅”的手段,重点介绍“Drill”、“PLP”、“key nodes”实战;
- 从运维中寻找快乐,运维数据的价值,贴近业务创造价值,以案例介绍运维服务;
- 腾讯游戏运维服务体系介绍;
不要让只有故障和突发的时候才想起运维,其实运维也是一个意识形态,运维并不是多做多错,...
by 孙宇聪
Coding.net 技术负责人,EGO会员
Google SRE负责生产运维,管理着全球上百万台服务器和上面数不清的应用,他们的一举一动都会影响全球千百万用户。
本次演讲,曾身为Google SRE(07-14)一员的孙宇聪将带给大家以下几点:
- Google SRE是怎样一个团队,有哪些特点,和传统运维团队的定义有哪些不同。其中重点讲SRE 如何在早期,中期,以及长期为项目提供持续性支持。
- 在采用Docker等新技术降低传统运维的门槛的同时,运维team在软件生命周期中如何自我定位,实现自我价值。
- 从Google带来的运维团队建设Best practices:
- 建立有效的监控和Oncall应急体制。
- ODR (Operational Readyness Drill) 如何锻炼团队应对紧急情况。
- Postmortem文档, 如何正确,认真的面对、跟踪生产环境中出现的问题,并且建立一个完善的机制。
by 钟红军
大众点评网运维和数据库总监
作为一家超过10年的互联网公司,大众点评的运维实践和运维理念,经历了很多变化和挑战。从2013年开始,点评运维从以前的传统运维方式中,逐步开始探索自己的道路。我们总结是:从工具化,发展到产品化,再到现在的运营化。在这个过程中有些什么思考?为什么要这么做?结果如何?这是本次分享要回答的问题。
by 朱家睿
阿里巴巴DDoS攻防专家
DDoS攻击是互联网服务的噩梦,DDoS攻防是看不到硝烟的战场。阿里巴巴有众多业务:淘宝、天猫、支付宝、云计算、CDN等。阿里巴巴平均每周监控到上万次DDoS攻击。如何保障集团业务稳定不被DDoS破坏?云业务又如何防御频繁的DDoS?运营团队如何使用防御产品去打每一场胜仗?团队如何在一次次的战斗中形成快速的配合?针对不断变化的攻防态势,未来又将如何应对?
演讲专题
Covering innovative topics
10月15日,星期四
-
可扩展、高可用架构
很多互联网(包括移动)业务成长非常迅速,在系统搭建之初和成长阶段就需要充分考虑系统架构设计,以满足在稳定性、扩展性、性能和成本方面的要求。
-
新时代的前端
最近几年,Web前端领域的新标准、新框架、新工具、新理念不断涌现。今年6月,ES6正式发布,也标志着Web前端已经进入了一个全新的时代!
-
运维之痛
最近互联网公司接二连三的故障,黑天鹅事件层出不穷,让我们更加体会到了运维人员的痛苦。谁来拯救我们苦逼的IT运维工程师!
-
技术创业
分享技术人创业案例,揭示背后的技术选型,人才招聘与培养等背后故事。
-
开源实践
很多企业都在拥抱开源,开源能给公司带来哪些好处?又有什么样的问题?
-
数据分析与移动开发工具专场
本专场将邀请来自大数据及移动应用服务相关供应商的Hadoop、机器学习、即时通讯等领域的技术专家,分享各自在全民大数据化背景下的最新技术实践经历,内容涉及前端数据收集、数据分析模型、数据安全等多个方面。
10月16日,星期五
-
新语言与新发展
现代软件开发,已经进入一个普遍的复杂系统的时代。了解编程语言的发展趋势,对我们是一件有意义且有趣的过程。本期我们邀请几位专家,介绍这几年进入应用领域的新语言和新特性。
-
新兴大数据处理
大数据的批量处理框架趋于完善,业务还需要什么?更大规模的内存和实时计算?更便捷的用户数据交互和触达?更高效的业务驱动?还是来自物联世界的数据接入?
-
移动开发新趋势
移动互联网是这些年发展最快的技术领域,也是机会最多的领域,从无到有的这几年,这个领域已经吸引了大量的工程师,资金和创业项目,在这个迅速变化的时代,在这个变化最快的领域,我们都需要随时保持学习。
-
建设高效团队
团队的特点就在于具有统一的目标,并且成员可以为其通力协作。在本话题中我们会讨论,如何建设起高效的团队,并使其一直保持高昂的战斗力,高速、高质地完成各种任务。
-
大规模软件持续交付与改进
越来越多的大型企业在市场残酷的冲击下,需要快速地转变以应对市场的快速变化,其中最重要的是如何缩短产品上市周期。通过一组精彩的真实案例,看看“别人家”如何快速持续交付及改进。
-
公有云服务与基础设施建设专场
本专场将邀请多位来自云服务供应商的CDN、容器、OpenStack技术工程师,分享最新的云计算实践经历,探讨云服务及IT基础设施建设的发展趋势,内容涵盖微服务架构开发、持续交付实践、网络加速等热门话题。
10月17日,星期六
-
Java问题诊断与性能优化实践
当Java系统变得日趋纷繁复杂,背后日益凸显的性能问题就会变得越发的举足轻重。本专题会从不同角度,多领域,结合云计算,大数据的当下,审视和关注在不同层次上,不同领域内Java性能问题以及优化实践。
-
安全与隐私
应对安全挑战。
-
容器与云计算
Docker容器和集群管理技术的背后是什么原理,能解决什么问题,有什么最新进展?关注Docker容器技术, Mesos等集群管理技术的原理和实践,容器相关的云计算服务。
-
基于大数据的机器学习技术
本专题将介绍业界最为前沿的大数据和机器学习技术,以及它们在搜索、推荐和数据挖掘等场景下的应用实践。我们邀请了国内一线互联网公司的技术精英们,看他们是如何利用机器学习技术让大数据产生真正价值的。
-
互联网产品案例研究
通过一组经典互联网产品案例分析,看看他们在产品开发过程中对设计、技术和市场等因素的决策过程,是如果一步步走到今天的产品形态的,曾经放出哪些大招或者下出哪些臭棋。
-
开发平台与服务技术实践专场
本专场将邀请来自应用开发平台及服务供应商的资深研发工程师、高级程序员及技术专家,分享敏捷开发、搜索引擎优化、容器应用管理等方面的技术实践与创新经验,以及应用开发领域目前所面临问题的解决之道。