本周内容可以说是精彩纷呈,囊括了Linux下Rsync作业过量时的监视和优化方法、激光将代替铜线成为新时代的数据传输媒介、W3C北航总部成立:招兵买马增强中国标准声音、美国人预防流感蔓延都用上了大数据以及Hadoop咋就瞧不上了RAID-0。下面赶紧回味一下本周的精彩内容。
1. Rsync作业爆棚下使用MongoDB+GridFS进行优化和监视
在数据中心内外同时对数据进行备份是灾难恢复中不可或缺的一部分:前者是为了预防设施中单个服务器失败,后者则是防范整个数据中心的丢失。
而在Linux环境下我们一般使用Rsync拷贝数据,在大部分的情况下它都是坚实可靠的;然而一旦Rsync作业过量,我们不得不考虑随之出现的诸多难题:
备份作业重叠
备份作业次数增加
同时发生的作业太多以至于服务器和网络过载
作业完成时,额外步骤的协调将变的异常困难
作业数量、作业统计的监视以及故障报警将难以实现
Jeff Behl —— LogicMonitor首席架构师兼运营副总监,拥有20多年监管经验;为多家基于SaaS公司和机构提供监管支持,我们且看这位老兵如何见招拆招。
2. 铜导线退出历史舞台 激光传导速度将达100G bps
任劳任怨的铜导线在数据传输中视乎要走到了尽头,好吧,这确实和我们用着2M的庶民无关;但是作为数据中心的传输媒介还是很有作为的 —— 英特尔正在准备用激光来传输计算机之间的数据,并计划在五年内投入使用。
英特尔首先采取的方法是用细的光纤,将激光作为一种转移计算机内数据更快的方式,取代目前大多数计算机内旧的和较慢的电线技术。英特尔的硅光子技术将被应用在主机和机架层,并使用激光在存储、网络和计算资源之间移动数据。激光被认为是一个比铜电缆更快移动数据的介质。英特尔的首席技术官Justin Rattner表示,新一代的服务器将需要更快的网络、更快的存储和更迅速处地理子系统,硅光子学技术则将满足新一代服务器的这部分要求。
目前,英特尔和服务器制造商广达电脑已经设计出了一个服务器机架结构原型,能够使用光学模块移动数据。Rattner表示,硅光子技术可以使通信速度达到100G bps(比特/秒),并且在高速传输数据方面,与铜电缆相比,硅光子技术消耗的电力很小。这项技术也可以整合数据中心的电源和风扇,降低组件成本。
3. W3C北航总部成立:招兵买马增强中国标准声音
互联网时代,我们无比渴望在标准制定上能够拥有自己的一席之地。历经6年不懈努力,2006年成立的W3C(World Wide Web Consortium,万维网联盟)中国办事处(北航)终于升格,成为继美国麻省理工学院、法国巴黎欧洲数学与信息学研究联盟(INRIA)、日本东京庆兴大学之后,W3C第四家全球总部——W3C北航总部。
1月21日,W3C北航总部揭牌仪式在北航唯实大厦举行。
会上,北京航空航天大学校长、W3C北航总部负责人怀进鹏表示:“从2006年W3C办事处成立,到2007年推进语音网络标准讨论,2008年香港万维网移交到北京,千人规模的顶级学术会议的成功召开,2010年HTML5原创游戏大赛,W3C中国兴趣小组,再到之后中国联通、百度的加入,2013年,我们终于成为W3C第四个全球总部,为中国相关产业融入Web国际标准生态系统搭建了一个更好的平台。北航希望以此作为新的契机,与全球产业界、学术界、标准化组织及开发者社区一道,共同构建开放万维网平台,推动Web技术和产业的发展,发出更多中国的声音。”
4. 美国人是如何利用大数据的应用来防止流感的蔓延
目前,大数据发展的势头可谓“如火如荼”,不过拥有数据并不意味着拥有其价值,只有对数据进行分析挖掘,发现有用的信息,进而“破译”这些信息才能够真正的创造价值。拥有数据就拥有其价值,这是多数人对大数据的误解之一。最近,波士顿和纽约宣布出现流感疫情。在波士顿市,目前已经呈报了700个案例,其中18人已经死亡。为了让疫情得到有效的控制,卫生官员以及应用开发人员向大数据寻求帮助。
最近推出的流感应用程序
同斯科尔全球性威胁基金进行合作,美国公共健康协会最近推出了FluNearYou,这是一款应用程序,用于收集流感症状的发展信息。只要年满13岁周岁,都可以在网站上进行注册,该网站用以监测流感的蔓延程度(如下图)。而每周一次的调查报告可以帮助防灾组织、研究人员以及公共卫生官员为流感疫情的扩散做好准备。更重要的是,该数据共享应用程序对预测未来任何有可能的流感疫情爆发,都会带来极大的帮助。
5. Hadoop为什么瞧不上RAID-0
RAID-0又称为Stripe或Striping,它代表了所有RAID级别中最高的存储性能。RAID-0提高存储性能的原理是把连续的数据分散到多个磁盘上存取,这样系统有数据请求就可以被多个磁盘并行的执行,每个磁盘执行属于它自己的那部分数据请求。这种数据上的并行操作可以充分利用总线的带宽,显著提高磁盘整体存取性能。
如此牛叉的原理为什么Hadoop看不上,宁愿去使用Just a Box of Disks。来自Hortonworks的两位专家第一次明确解释了这个问题:在Hadoop集群中,读取速度是最能体现性能的重要指标。由于驱动器速度显著不同,RAID-0读取速度往往取决于阵列中最慢的一块磁盘。很多时候,RAID-0配置读取速度甚至会比non-RAID更慢。更大的问题是可靠性。如果一组磁盘被配置为RAID-0阵列,一旦一个磁盘出现故障,将使得整组都宕机。如果所有磁盘都在一个节点中,那么势必会影响整个节点的数据都出现问题。所以,如果配置多个RAID-0阵列,那么单故障发生时,整体系统出问题的概率得到了无限放大。
6. 刘黎明:PaaS是非主流业务,要与IaaS融合
采访刘黎明,源于一篇“点评阿里云盛大云代表的云计算IaaS产业”的评论文章,包括国内OpenStack实践者程辉在内的很多人,都认为这是目前能看到的对国内IaaS乃至云计算行业分析的最中肯的文章。在第七届IDC大会上,CSDN对刘黎明进行了专访,对当下云计算的热点事件进行点评,精彩观点如下:
图:刘黎明认为,相对于IaaS和SaaS,PaaS属于非主流的云服务
PaaS是云计算中的非主流行业,并不是为用户提供了一些方便就能吸引用户。
ISV有两种方式过渡到云化,与IaaS服务商捆绑销售,或者提供SaaS服务。
对于微软而言,更重要的是基于现有的用户提供新的服务,Azure就是这个思路,通过云的方式将现在的服务提供给用户。
7 - 8 分别是来自Facebook和Compuware的两篇文章:将节能进行到底:Facebook为冷存储寻求廉价闪存和从APM角度上看:NoSQL和关系数据库并无不同
前者讲述了数据中心巨头玩家Facebook的悲哀:一般企业可以把冷数据刻成光盘储存,但是在Facebook明显行不通。为了更加节能,Facebook不得不向一些硬件供应商寻求帮助 —— 寻找用于冷存储的廉价闪存替代之前的机械式磁盘。
后者说明了:开发者应该重视应用层的逻辑设计,数据库性能的瓶颈并不一定是数据库本身的问题。数据库的选择应该针对于数据结构的弥补,而不是遮掩应用程序的逻辑问题。
9 - 12更多信息:谷歌另类“开源” 程度仍不及Facebook和Twitter; 想在云中分一份蛋糕? 不妨试试“山寨”; Rackspace通过OpenStack和定制OCP服务器节省40%成本; 【CTO俱乐部第92期】大规模存储与电商架构演化实战分享等。(审校:王旭东)
(责任编辑:leonlee07)