是的HBTC 2012已经落下帷幕,会议期间的干货您收藏了多少呢?我们小小的回味一下大会期间的精彩片段吧:
赵伟:HIVE在腾讯分布式数据仓库实践
腾讯赵伟
在12月1日“Hadoop生态系统”主题分论坛,腾讯高级工程师赵伟首先介绍了他们的TDW核心架构,Hive,MapReduce,HDFS及PostgreSQL构成。赵伟分享了最核心的Hive模块在TDW中的实践经验;HIVE是一个在Hadoop上构建数据仓库的软件,它支持通过类SQL的HQL语言对结构化数据进行操作;实现了基本的SQL功能,可扩充UDF/UDAF、自定义SerDeThrift协议、支持多语言客户端。最后他还剖析了Hive的不足并展望了HIVE的发展前景:
在他看来,Hive有四大缺点:数据仓库功能不够完善;使用门槛高(用户界面简陋、运行调试麻烦、问题定位困难、查询计划难看);性能有提升空间(SQL翻译成的MR任务效率低或者不合理);不够稳定。
腾讯赵伟表示,腾讯机器总量5000+,最大集群约2000个节点,覆盖腾讯90%+的产品。TDW集成开发环境活跃用户数:200+,每日运行的分析SQL数:50000+。每日SQL翻译成的MR job数:100000+。最近半年SLA:99.99%。这些数字表现在Hadoop方面,腾讯并不慢。
文章链接:赵伟:Hive在腾讯分布式数据仓库实践
PPT下载 :Download
潘越:从战略角度解读大数据的机遇
IBM潘越
IBM中国研究院信息管理与医疗健康首席科学家潘越,阐述了大数据的4个V:
第一个V,大数据首先代表的是数据产生的量比传统的量大很多。他认为传统的G级别或者T级别的数据存储和管理的方案,目前看起来都不太合适或者是性价比不高。
第二个V针对的是机器产生的数据。传统的分析的周期原来可能都是以月、周、天这样的时间来做分析的,而现在很多的分析都需要实时的决策,所以数据关键是速度。
第三个V,当然是用户数据的多样性。
第四个V,数据里包含的不确定性。数据的不确定性和数据的多样性之间可能也有一种天然的联系,但是也不完全地等同。
然后得出了三点结论:1.大数据并不能固守在自己的领域里面,要跟企业中其他的数据管理、信息分析结合起来。2.在大数据的部署过程中会采用很多种技术,我们不仅要看到技术的有效性,还要更多地考虑一下:如果把技术结合在一起,会产生什么样的价值。3.像大数据平台应该是一个共享的平台,应该能为大家创造一个共同协作的环境,这样就能降低成本和风险。
文章链接:潘越:从战略角度解读大数据的机遇
PPT下载 :Download
戴建勇:解读Apache Pig的性能优化
Hortonworks戴建勇
在12月1日“Hadoop生态系统”主题分论坛,Hortonworks member of technical staff戴建勇对Apache Pig的优化做出了详细的解说。
首先戴建勇分析了Pig和Hive的不同:
虽然Pig和hive是用来解决同样的问题,但Pig和Hive却着有显著不同。首先Pig是一个过程化的语言;而Hive说的是SQL的语言,是描述性的语言。许多开发者都喜欢使用过程化进行数据开发。对比Hive,Pig显得更加灵活,因为在Pig里面Schema不是必需的。Pig具有可扩充性,基本上所有的Pig函数库都是可以扩充的。
之后戴建勇还对Pig的历史以及Pig中的工具进行了充分的分享。当然重中之重Pig的优化是不可或缺的,各种Join的实现、oder by的实现、如何利用Combiner以及基于规则的优化器。戴建勇还对Pig 0.11版的新特性做出了解析。还等什么,速度点击下面的传送门吧!
最后文章链接:戴建勇:解读Apache Pig的性能优化
PPT下载 :Download
强琦:平台的意义在于交换,数据的价值在于共享
阿里 强琦
在大数据共享平台与应用主题论坛上,来自阿里巴巴集团数据交换平台资深专家强琦分享了大数据探索 —— 阿里巴巴数据交换平台。强琦强调数据的价值在于共享,而平台的价值在于交换。作为平台的建造者要拿出数据给大家交换,以身做饵,以高价格的数据交换散落在蓝海中的数据。阿里巴巴未来的策略,也正是基于这点。数据单独使用,发挥价值并不大。只有把数据融合在一起,才能产生出巨大的价值。
强琦还指出阿里巴巴不会单纯的以打造平台的目的去做一个平台,会把平台的打造融入业务当中。阿里巴巴的数据交换平台是开放的,平台将打通和整合整个阿里巴巴集团的所有的数据。提供人性化的服务,建立一个统一的大数据交换平台。这也将是阿里巴巴至明年的工作重点之一。
文章链接:强琦:大数据探索-阿里巴巴数据交换平台
PPT下载 :Download
顾费勇:未来的DataStream机制
网易顾费勇
在12月29日主题论坛三大数据共享平台与应用中,网易资深工程师顾费勇为我们带了题为《海量数据搬运工——DataStream》的主题演讲。顾费勇从DataStream产生的原因、结构和特征、关键技术点、应用场景和未来的展望为我们开启了海量数搬运的篇章。 顾费勇为我们介绍了关于DataStream的试点关键技术:异构数据源解析、数据分流、数据可靠传输和数据传输效率。以数据的可靠传输为例让我们了解DataStream试点的关键技术。顾费勇认为数据的可靠传输包括四种。第一,持久化机制,将收到的消息先做持久化后发送。第二,ACK机制,可确保后端模块已收到数据,未收到则重发。第三,异常数据处理,将无法处理的异常数据保存在指定位置,可追溯来源。第四,全面覆盖的监控程序,监控所有进程的正确执行,监控系统有无异常日志,监控系统吞吐量是否不足有延迟,监控产品数据流量异常波动,监控产品有无不符合协议的日志。
文章链接:费勇:海量数据搬运工——DataStream
PPT下载 :Download
刘立萍:数据消费的改变,解决规模 ==》解决计算 ==》数据智能
百度刘立萍
在大数据共享平台与应用主题论坛上,来自百度基础架构部数据平台技术经理刘立萍介绍了百度大数据平台。刘立萍表示随着应用的需求,当我们的数据处理能力越来越强以后,对数据消费更高的要求也提出来了,而在百度内部把迭代关系划分成了三个阶段:
第一,解决规模(2007到2011年),解决基础存储和计算的问题。整个的集群、搭建的这些平台包括计算模式在很多地方都有计算过。单机群体达到五千,MPI的集群达到四千;各种计算模型,增量计算这种模型、规模在运用的过程中遇到过很多问题。随着碎片计算增多,使得大家计算资源越来越不够,任务都不能用;整个的任务,还有数据都不能附用。2011到2013年(从计算为中心转到数据为中心,对数据进行处理),这个过程中,实际上以数据仓库的技术为核心的,这也是现在正在做的事情。第三个阶段,从2013年以后(预测)。而这一阶段的期望是出现一些叫数据智能的产品。
文章链接:刘立萍:百度大数据平台介绍
PPT下载 :Download
刘佳:全面分析HBase用例
普泽天玑刘佳
在12月1日“Hadoop生态系统”主题分论坛,普泽天玑技术总监刘佳发表了题为“HBase用例分析”的演讲。刘佳主要分享了3个案例:
第一个是数据魔方,他从新旧系统的原理对比入手,详细介绍了他们如何对流程进行重新规划。
第二个是访客直播间,从系统架构的角度深度解析了HBase的应用。
最后是广点通,刘佳从业务背景出发对系统的重新部署流程做了深刻的讲解。
刘佳借以上3个案例,详述了项目过程中所遇到难题的实现方法。限于篇幅问题,详细技术请绕至下方传送门。
文章链接:刘佳:全面分析HBase用例
PPT下载 :Download
Ronaldo Ama使用虚拟技术整合大数据和云计算
VMware Ronaldo Ama
VMware全球高级副总裁Ronaldo Ama在题为“大数据和云计算如何联系(云中的大数据)”的演讲中,展现了一副大数据的应用全景。在实时流技术,机器学习技术、实时处理技术、数据分析技术和批处理等多个领域展开。
其间Ronaldo Ama从技术上提出了3层模型,最上面是部署云计算技术的计算层;位于中间是数据存储和预处理的数据层;处于最下面的自然是由许多主机和网络构成的基础设施层。显然要实现易维护、高可靠性、弹性、灵活租用等都需要虚拟技术的支持。
最后,针对如何实现、部署虚拟化框架和应用,Ronaldo Ama还做了详细的阐述。
Ronaldo Ama认为,大数据很好,可以带来很多的价值!
文章链接:Ronaldo Ama使用虚拟技术整合大数据和云计算
PPT下载 :Download
更多“干货”请见HBTC2012直播页 责编:王旭东
欢迎关注@CSDN云计算微博,了解更多关于大数据的信息。
本文为CSDN编译整理,未经允许不得转载。如需转载请联系market@csdn.net
(责任编辑:leonlee07)