时间: 2015年10月15~17日
地点: 上海·光大会展中心国际大酒店

专题: 基于大数据的机器学习技术

Day of week:

在大数据领域中,机器学习几乎无处不在,即便我们没有特意引用它们,它们也经常出现在大数据应用中,例如:搜索、推荐、预测和数据挖掘等。随着互联网的高速发展,数据量不断爆发式增长,数据维度越来越丰富,这也为机器学习的发展和应用提供了良好的土壤,机器学习的良好成果也反向让数据产生更大的价值,成为真正的“大数据”,两者相辅相成,相互促进,让数据越来越智能。

大家都知道,机器学习技术不仅包含高深的理论算法模型以及对数据的合理利用,同时也离不开全面的工程技术支持。因此,本专题将综合介绍业界先进的机器学习算法模型,以及飞速发展的大数据架构技术,例如:hadoop,hbase,storm,spark等,尤其是近年来机器学习已经开始从offline走向online,阿里巴巴的在线机器学习技术已经可以根据用户几秒前的搜索、点击和购买记录行为反馈,实时调节搜索排序和个性化推荐了。我们邀请的国内一线互联网技术专家们,也将通过各自在电商、视频、旅行等领域的实践分享,向大家展示如何利用机器学习和大数据技术的融合来引领业务发展的。

专题出品人:
王峰(莫问)
阿里搜索事业部高级技术专家

花名:莫问

微博:淘莫问

2006年硕士毕业于北航计算机系,应届加入阿里巴巴集团,先后在雅虎中国、阿里云、淘宝从事搜索及大数据技术研发工作,目前在阿里搜索事业部带领离线技术北京团队,负责为阿里集团各搜索业务提供平台级数据技术支持。

本人自2009年开始关注Hadoop生态技术发展,并逐步将其引入阿里电商搜索技术体系,2010年首次将HBase在全网商品搜索落地,这也是HBase第一次在阿里集团正式上线的标志,经过多年的积累的发展,已经打造出基于HBase的离线存储平台。2013年再次率先将阿里搜索的Hadoop集群全面升级到YARN时代,并基于YARN自主研发了iStream流式计算引擎,以及在线机器学习平台,为淘宝、天猫、B2B电商搜索提供了统一的离线与在线大数据计算平台。


by 陈敏敏
1号店资深架构师

随着业务的增长,迫切需要一个通用的基础平台和引擎做各个推荐栏位,邮件、短信等消息触达,以达到精准化的投放和展示商品,1号店除了用传统的协同过滤、关联规则的推荐方式,还应用了哪些推荐技术,并且如何把Spark等新兴技术应用到我们的场景中,用来支撑促销排期选品,小区雷购选品,情景推荐等等。

听众受益:

  1. 了解Storm、Spark等技术在电商智能选品,小区雷购,用户意图等方面的实践。
  2. 了解电商如何通过选人、选品基础数据,构建意图、情景推荐等通用推荐引擎,灵活的为栏位、邮件、短信、消息弹出等营销,如何辅助运营人员促销选品。

by 梁义
阿里巴巴搜索事业部高级技术专家

阿里搜索实时计算和在线学习系统PORA介绍——PORA是阿里搜索基于iStream(自主研发的运行在Hadoop YARN上的实时计算引擎)+ HBase基础平台打造的一套实时计算和在线学习系统,支持在秒级别内对淘宝海量用户行为及其相关联的海量商品大数据作实时分析处理,从中提取多维度的海量数据特征,并结合分布式Parameter Server模型进行在线学习,从而使用户行为可以在几秒内影响搜索排序等在线服务。PORA可应用于实时个性化搜索/推荐、实时反作弊、实时流量优化等诸多领域,以2014天猫双11大促活动为例,PORA结合实时算法模型使搜索成交金额获得了10%的提升。

听众受益:

可以了解到阿里搜索基于电商实时大数据进行在线学习的一些思路和做法,以及它们在搜索、推荐、流量优化等场景下的具体应用效果,并从中得到一些启发。


by 梁堰波
明略数据高级工程师

随着商业信息化水平的不断提高,用户通过银行卡刷卡消费产生了大量的数据。这类数据价值大、安全性要求高、时效性明显。但是由于数据量巨大,传统IT架构很难满足对这类数据的挖掘和分析的需求,基于Spark的机器学习技术可以帮助我们解决这些问题。这个分享将讨论我们如何基于Spark的MLlib和若干内部开发的算法,构建机器学习pipeline,预测银行卡用户的消费行为以及对应的商品推荐。

听众受益:

  1. 定义机器学习问题以及算法的选择
  2. 使用Spark+MLlib构建机器学习pipeline的实践经验
  3. Spark最新的ML包的特点以及使用中遇到的问题
  4. 传统行业应用大数据面临的挑战以及我们的一些经验

by 张彭善
PayPal大数据研发工程师

随着第三方支付的迅猛发展,PayPal的风险控制也面临着日新月异的挑战。PayPal风险控制部门一直致力于利用基于大数据的机器学习的模型和灵活的规则检测欺诈交易和欺诈用户。我们利用自主研发的大数据机器学习系统,不仅能满足盗号(Account take over)、盗卡(Stolen financial)等传统欺诈用例的模型自动化构建,亦能服务于新兴的同谋(Collusion)、洗钱(Money laundry)、信用(Credit)等等用例。同时,此系统还可以提供规则的自动学习、自动化的特征类型识别、自动化的特征选择、标准化的模型输出(PMML)等等一站式功能。利用该系统大大缩短PayPal离线风控模型的开发周期,我们已经成功将以前一周的工作周期减少为一天的时间。

听众受益:

  1. PayPal风险控制业务背景
  2. 如何基于Hadoop构建端到端的机器学习系统
  3. 智能化、自动化的特征统计、特征类型识别和特征选择

by 王奕恒
Intel软件工程师

by 黄晟盛
英特尔亚太研发有限公司高级工程师/大数据架构

最近几年,神经网络算法得到业界越来越多的关注。基于神经网络的深度学习在计算机视觉、语音识别和自然语言处理等方面都取得了良好的效果。已有的神经网络框架(如Caffee,Torch等)往往是单节点的方案并使用昂贵的GPU卡进行加速。我们基于Spark构建了一个分布式的神经网络算法框架,使用户能够方便的在通用计算平台上,利用神经网络算法进行大数据的机器学习。在易用性方面,我们将神经网络算法模块化,并实现了常用的数据结构、层、代价函数和训练算法等模块,使用户可以根据自己的需求快速定义出复杂的神经网络,以及灵活的添加替换自定义模块。我们还在通用计算平台上针对神经网络中的关键操作进行了优化,使得用户可以充分享用到硬件加速(例如CPU和GPU)的计算能力。

听众收益:可以了解到一个易于使用的分布式神经网络算法框架。基于该框架用户可以在已有的通用计算平台上快速定制和部署神经网络进行大数据的机器学习,并充分利用硬件加速的计算能力。


by 涂强
去哪儿网旅游搜索业务总监

如何让用户快速获取和发现满足需求的旅游产品,会是在线旅游企业最大的产品挑战。

我们一起来看搜索、推荐、知识图谱等技术如何应用在旅游行业,帮助大幅提升产品体验。

主题摘要:

随着Quanr业务体系的不断扩充,我们在线售卖的产品规模不断增加,基本上能够满足用户的旅游需求。

但是,如何帮助用户快速发现或者定位具体的旅游产品,会是产品和技术面临的挑战。

Qunar创新研发团队试图通过个性化体系的构建,能够快速对用户需求进行预测,将可能被购买的SKU快速展现给用户。

我们也允许用户表达旅游需求,如何将用户的主观需求与供应链进行匹配,会是很大的技术难题。Qunar也正在引入意图识别、搜索、知识图谱等体系,尝试解决这个问题。

总之,新的先进技术进入旅游行业,期望让这个行业更加智能和高效。

听众受益:

  1. 了解个性化推荐在旅游行业的应用
  2. 搜索、推荐、知识图谱等技术与垂直行业融合的可能性探讨

演讲专题

Covering innovative topics

10月15日,星期四

  • 可扩展、高可用架构

    很多互联网(包括移动)业务成长非常迅速,在系统搭建之初和成长阶段就需要充分考虑系统架构设计,以满足在稳定性、扩展性、性能和成本方面的要求。

  • 新时代的前端

    最近几年,Web前端领域的新标准、新框架、新工具、新理念不断涌现。今年6月,ES6正式发布,也标志着Web前端已经进入了一个全新的时代!

  • 运维之痛

    最近互联网公司接二连三的故障,黑天鹅事件层出不穷,让我们更加体会到了运维人员的痛苦。谁来拯救我们苦逼的IT运维工程师!

  • 技术创业

    分享技术人创业案例,揭示背后的技术选型,人才招聘与培养等背后故事。

  • 开源实践

    很多企业都在拥抱开源,开源能给公司带来哪些好处?又有什么样的问题?

  • 数据分析与移动开发工具专场

    本专场将邀请来自大数据及移动应用服务相关供应商的Hadoop、机器学习、即时通讯等领域的技术专家,分享各自在全民大数据化背景下的最新技术实践经历,内容涉及前端数据收集、数据分析模型、数据安全等多个方面。

10月16日,星期五

  • 新语言与新发展

    现代软件开发,已经进入一个普遍的复杂系统的时代。了解编程语言的发展趋势,对我们是一件有意义且有趣的过程。本期我们邀请几位专家,介绍这几年进入应用领域的新语言和新特性。

  • 新兴大数据处理

    大数据的批量处理框架趋于完善,业务还需要什么?更大规模的内存和实时计算?更便捷的用户数据交互和触达?更高效的业务驱动?还是来自物联世界的数据接入?

  • 移动开发新趋势

    移动互联网是这些年发展最快的技术领域,也是机会最多的领域,从无到有的这几年,这个领域已经吸引了大量的工程师,资金和创业项目,在这个迅速变化的时代,在这个变化最快的领域,我们都需要随时保持学习。

  • 建设高效团队

    团队的特点就在于具有统一的目标,并且成员可以为其通力协作。在本话题中我们会讨论,如何建设起高效的团队,并使其一直保持高昂的战斗力,高速、高质地完成各种任务。

  • 大规模软件持续交付与改进

    越来越多的大型企业在市场残酷的冲击下,需要快速地转变以应对市场的快速变化,其中最重要的是如何缩短产品上市周期。通过一组精彩的真实案例,看看“别人家”如何快速持续交付及改进。

  • 公有云服务与基础设施建设专场

    本专场将邀请多位来自云服务供应商的CDN、容器、OpenStack技术工程师,分享最新的云计算实践经历,探讨云服务及IT基础设施建设的发展趋势,内容涵盖微服务架构开发、持续交付实践、网络加速等热门话题。

10月17日,星期六

  • Java问题诊断与性能优化实践

    当Java系统变得日趋纷繁复杂,背后日益凸显的性能问题就会变得越发的举足轻重。本专题会从不同角度,多领域,结合云计算,大数据的当下,审视和关注在不同层次上,不同领域内Java性能问题以及优化实践。

  • 安全与隐私

    应对安全挑战。

  • 容器与云计算

    Docker容器和集群管理技术的背后是什么原理,能解决什么问题,有什么最新进展?关注Docker容器技术, Mesos等集群管理技术的原理和实践,容器相关的云计算服务。

  • 基于大数据的机器学习技术

    本专题将介绍业界最为前沿的大数据和机器学习技术,以及它们在搜索、推荐和数据挖掘等场景下的应用实践。我们邀请了国内一线互联网公司的技术精英们,看他们是如何利用机器学习技术让大数据产生真正价值的。

  • 互联网产品案例研究

    通过一组经典互联网产品案例分析,看看他们在产品开发过程中对设计、技术和市场等因素的决策过程,是如果一步步走到今天的产品形态的,曾经放出哪些大招或者下出哪些臭棋。

  • 开发平台与服务技术实践专场

    本专场将邀请来自应用开发平台及服务供应商的资深研发工程师、高级程序员及技术专家,分享敏捷开发、搜索引擎优化、容器应用管理等方面的技术实践与创新经验,以及应用开发领域目前所面临问题的解决之道。