时间: 2015年10月15~17日
地点: 上海·光大会展中心国际大酒店

专题: 运维之痛

Day of week:

凡是做过运维的人都会抱怨自己遇到的苦逼事情,除了每天战战兢兢,如履薄冰的干活。平时还必须24小时开机,深夜扩容是常态。偶尔还遇到莫名其妙的故障让深究一个下午也找不到根因。

除此之外,还有很多外界不可控因素影响着你的KPI。机房断电,网络供应商线路故障,光纤被挖断,DNS故障,各种网络攻击让你防不胜防。一旦网站规模化之后必须要面对的问题就更加多了,如何节约成本,提升运维成熟度。

运维自动化成为必经之路,让苦逼的让运维工程师在工作中找一些趣味性,不那么无聊,不无聊的有益副作用也是减少人为出错的可能。任何一个成功的站点都离不开一支优秀的运维团队,尽管他们更多时候隐身在网站背后不为人知。

希望通过本次的QCon的运维之痛专题中给大家介绍一些好的流程,工具,点子,管理方式。拯救我们的运维工程师!

专题出品人:
程国强
携程网站运营系统研发高级总监

网名:陶乐诗。拥有15年的互联网开发和运维经验,曾就职于IBM,eBay,Wal-Mart等公司从事网站运维以及系统开发工作。目前任职于携程网站运营中心,作为系统研发部高级总监,负责网站监控告警及运维工具的开发。在分布式监控系统领域有丰富的实践经验,对于监控系统在大型网站运维体系中的有效应用有深刻的理解。


by 王兴朝
携程开发经理

无线解耦是携程一次里程碑式的架构变迁,而无线Gateway为这次变迁提供了重要的支撑,使其成为可能。

而变迁后,无线Gateway同样为携程稳定性做出重要贡献。

Gateway的职能是负责接收来自无线端的所有API请求,并把他们路由到正确的地方。

提供限流、隔离、熔断策略,保证长期稳定运行,拥有强大的弹性容错机制,很大的减少了日常运维工作。

同时提供了多维度的监控数据,并与报警系统对接,实时监控线上情况,能够发现问题,并识别问题来源,自动通知对应的负责人,尽可能实现了运维自动化。

Gateway是基于Netflix公司的开源项目Zuul再开发的,但我们很好的把它融入了携程的生态体系中。

此次将和大家分享整个产品开发的心路里程,从技术、功能、业务多维度分享我们的收获与感悟。


by 徐盎
饿了么技术运营部总监

在业务量持续陡升、创新不断、生态逐渐丰满的节奏中,扩容是常态每个应用都可能成为系统的瓶颈。如何减少发现、定位时间,如何快节奏里完善技术运营体系?让我们来反思。

  1. 创业团队各种平台工具各显神通的困局突破
  2. 自动化与业务高交付压力的矛盾
  3. 立体化监控实践

by 洪楷
腾讯游戏自研运维中心总监

在游戏业务运维中,涉及MMOGRPG、MOBA、ACG、FPS、ACT、MUG等不同游戏类型,由此而引入了各种异构,运维行业中涌现Puppet、Zibbix、Nagios、Nginx等各种分门别类技术工具。在PaaS、IaaS、SaaS帮运维封装了很多服务,帮助运维降低或者规避风险,除了从工具和云化的平台服务方面帮助业务规避风险,还有那些应该在运维团队中做到?特别在游戏业务的众多异构中有那些手段?传统的运维模式应该如何应对游戏业务转变?运维如何借助业务进行自成长?本次演讲包括:

  1. 运维规范作为基石必要性,建设过程中会有那些“坑”;
  2. 基石——腾讯游戏运维白皮书的构成;
  3. 日常运维中规避“黑天鹅”的手段,重点介绍“Drill”、“PLP”、“key nodes”实战;
  4. 从运维中寻找快乐,运维数据的价值,贴近业务创造价值,以案例介绍运维服务;
  5. 腾讯游戏运维服务体系介绍;

不要让只有故障和突发的时候才想起运维,其实运维也是一个意识形态,运维并不是多做多错,...


by 孙宇聪
Coding.net 技术负责人,EGO会员

Google SRE负责生产运维,管理着全球上百万台服务器和上面数不清的应用,他们的一举一动都会影响全球千百万用户。

本次演讲,曾身为Google SRE(07-14)一员的孙宇聪将带给大家以下几点:

  1. Google SRE是怎样一个团队,有哪些特点,和传统运维团队的定义有哪些不同。其中重点讲SRE 如何在早期,中期,以及长期为项目提供持续性支持。
  2. 在采用Docker等新技术降低传统运维的门槛的同时,运维team在软件生命周期中如何自我定位,实现自我价值。
  3. 从Google带来的运维团队建设Best practices:
    • 建立有效的监控和Oncall应急体制。
    • ODR (Operational Readyness Drill) 如何锻炼团队应对紧急情况。
    • Postmortem文档, 如何正确,认真的面对、跟踪生产环境中出现的问题,并且建立一个完善的机制。
...

by 钟红军
大众点评网运维和数据库总监

作为一家超过10年的互联网公司,大众点评的运维实践和运维理念,经历了很多变化和挑战。从2013年开始,点评运维从以前的传统运维方式中,逐步开始探索自己的道路。我们总结是:从工具化,发展到产品化,再到现在的运营化。在这个过程中有些什么思考?为什么要这么做?结果如何?这是本次分享要回答的问题。


by 朱家睿
阿里巴巴DDoS攻防专家

DDoS攻击是互联网服务的噩梦,DDoS攻防是看不到硝烟的战场。阿里巴巴有众多业务:淘宝、天猫、支付宝、云计算、CDN等。阿里巴巴平均每周监控到上万次DDoS攻击。如何保障集团业务稳定不被DDoS破坏?云业务又如何防御频繁的DDoS?运营团队如何使用防御产品去打每一场胜仗?团队如何在一次次的战斗中形成快速的配合?针对不断变化的攻防态势,未来又将如何应对?

演讲专题

Covering innovative topics

10月15日,星期四

  • 可扩展、高可用架构

    很多互联网(包括移动)业务成长非常迅速,在系统搭建之初和成长阶段就需要充分考虑系统架构设计,以满足在稳定性、扩展性、性能和成本方面的要求。

  • 新时代的前端

    最近几年,Web前端领域的新标准、新框架、新工具、新理念不断涌现。今年6月,ES6正式发布,也标志着Web前端已经进入了一个全新的时代!

  • 运维之痛

    最近互联网公司接二连三的故障,黑天鹅事件层出不穷,让我们更加体会到了运维人员的痛苦。谁来拯救我们苦逼的IT运维工程师!

  • 技术创业

    分享技术人创业案例,揭示背后的技术选型,人才招聘与培养等背后故事。

  • 开源实践

    很多企业都在拥抱开源,开源能给公司带来哪些好处?又有什么样的问题?

  • 数据分析与移动开发工具专场

    本专场将邀请来自大数据及移动应用服务相关供应商的Hadoop、机器学习、即时通讯等领域的技术专家,分享各自在全民大数据化背景下的最新技术实践经历,内容涉及前端数据收集、数据分析模型、数据安全等多个方面。

10月16日,星期五

  • 新语言与新发展

    现代软件开发,已经进入一个普遍的复杂系统的时代。了解编程语言的发展趋势,对我们是一件有意义且有趣的过程。本期我们邀请几位专家,介绍这几年进入应用领域的新语言和新特性。

  • 新兴大数据处理

    大数据的批量处理框架趋于完善,业务还需要什么?更大规模的内存和实时计算?更便捷的用户数据交互和触达?更高效的业务驱动?还是来自物联世界的数据接入?

  • 移动开发新趋势

    移动互联网是这些年发展最快的技术领域,也是机会最多的领域,从无到有的这几年,这个领域已经吸引了大量的工程师,资金和创业项目,在这个迅速变化的时代,在这个变化最快的领域,我们都需要随时保持学习。

  • 建设高效团队

    团队的特点就在于具有统一的目标,并且成员可以为其通力协作。在本话题中我们会讨论,如何建设起高效的团队,并使其一直保持高昂的战斗力,高速、高质地完成各种任务。

  • 大规模软件持续交付与改进

    越来越多的大型企业在市场残酷的冲击下,需要快速地转变以应对市场的快速变化,其中最重要的是如何缩短产品上市周期。通过一组精彩的真实案例,看看“别人家”如何快速持续交付及改进。

  • 公有云服务与基础设施建设专场

    本专场将邀请多位来自云服务供应商的CDN、容器、OpenStack技术工程师,分享最新的云计算实践经历,探讨云服务及IT基础设施建设的发展趋势,内容涵盖微服务架构开发、持续交付实践、网络加速等热门话题。

10月17日,星期六

  • Java问题诊断与性能优化实践

    当Java系统变得日趋纷繁复杂,背后日益凸显的性能问题就会变得越发的举足轻重。本专题会从不同角度,多领域,结合云计算,大数据的当下,审视和关注在不同层次上,不同领域内Java性能问题以及优化实践。

  • 安全与隐私

    应对安全挑战。

  • 容器与云计算

    Docker容器和集群管理技术的背后是什么原理,能解决什么问题,有什么最新进展?关注Docker容器技术, Mesos等集群管理技术的原理和实践,容器相关的云计算服务。

  • 基于大数据的机器学习技术

    本专题将介绍业界最为前沿的大数据和机器学习技术,以及它们在搜索、推荐和数据挖掘等场景下的应用实践。我们邀请了国内一线互联网公司的技术精英们,看他们是如何利用机器学习技术让大数据产生真正价值的。

  • 互联网产品案例研究

    通过一组经典互联网产品案例分析,看看他们在产品开发过程中对设计、技术和市场等因素的决策过程,是如果一步步走到今天的产品形态的,曾经放出哪些大招或者下出哪些臭棋。

  • 开发平台与服务技术实践专场

    本专场将邀请来自应用开发平台及服务供应商的资深研发工程师、高级程序员及技术专家,分享敏捷开发、搜索引擎优化、容器应用管理等方面的技术实践与创新经验,以及应用开发领域目前所面临问题的解决之道。