2. 孙元浩:基于Spark引擎的高速内存分析和挖掘工具应用 孙元浩,2003年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO,负责英特尔Hadoop发行版的研发和产品化工作。 2013年离开英特尔创办星环科技,推出国内首个基于Spark的大数据平台产
孙元浩,2003年加入英特尔,曾是英特尔亚太研发有限公司数据中心软件部亚太区CTO,负责英特尔Hadoop发行版的研发和产品化工作。 2013年离开英特尔创办星环科技,推出国内首个基于Spark的大数据平台产品,在中国成功建立数个Spark成功案例。
孙元浩认为现在把Spark作为M/R执行引擎内嵌在我们的产品中,在两大类应用实践中比较成功,一类是通过PL/SQL进行交互式数据统计和分析,结合可视化工具为用户提供了高速的大数据探索能力。另一类应用是做数据挖掘,因为Spark充分利用内存进行缓存,利用DAG消除不必要的步骤,所以比较合适做迭代式的运算。而有相当一部分机器学习算法是通过多次迭代收敛的算法,所以适合用Spark来实现。我们把一些常用的算法并行化用Spark实现,可以从R语言中方便地调用,降低了用户进行数据挖掘的学习成本。
他表示Spark目前在技术上已经不存在大的困难了,我们已经在一些用户的核心业务系统中部署我们自己的Spark版本,而且是7x24小时不间断运行,稳定性已得到验证。我们也把Spark成功地应用到数据仓库中,无需编程几乎全程可视化。如果说目前面临的最大困难,主要是在客户认知上,还需要更多的成功案例和技术推广。
随着数据体积的激增,MySQL+memcache已经满足不了大型互联网类应用的需求,许多机构也纷纷选择Redis作为其架构上的补充,然而Redis的使用门槛并不低,比如不支持SQL等,这里为大家分享Redis的使用全攻略。
Redis的一个重要特性就是它并非通常意义上的数据库,虽然称之为数据库是因为它可以为你存储和维护数据,但它并不像关系数据库那样提供任何的SQL方言。不过不用担心,Redis并不是吞噬数据的黑洞,它只是不支持SQL及相关功能,但却提供了稳健的协议用于与之交互。
Redis是基于key-value范式存储数据,不像RDBMS中的字段名称,这里的key是Redis中的重要组成部分,所以我们必须在处理key时多加小心。在下面的讲述中,Redis并没有table的概念,所以像"SELECT username from users WHERE user_id=123;"这种简单任务都只能换种方式实现,为了达到这种目的,在Redis上,一种方式是通过key "user:123:username"来获取结果value。如你所见,key的定义中携带了神秘信息(像user ids)。在Redis中,key的重要性可见一斑。
NOSQL有以下优势:
MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中最像关系数据库的。支持类似于面向对象的查询语言,几乎可以实现类似关系数据库单表查询的绝大部分功能,而且还支持对数据建立索引。所以这个非常方便,我们可以用sql操作MongoDB,从关系型数据库迁移过来,开发人员学习成本会大大减少。如果再对底层的sql
API做一层封装,开发基本可以感觉不到mongodb和关系型数据库的区别。同样MongoDB也是号称自己能够快速搭建一个高可用可扩展的分布式集群。
2014年3月26日,LSI加速技术创新峰会(AIS)首次登陆中国,这也是LSI首次选择在美国之外的地区召开峰会,本次峰会主题为“数据即商机”。参展的产品主要是针对数据中心的存储解决方案,包括针对企业级大型数据中心的12 Gb/s SAS MegaRAID解决方案,针对中小企业的Syncro CS解决方案以及Nytro闪存解决方案,虽然没有新品发布,每种解决方案对传统存储市场来说都是一场变革。
LSI公司CTO办公室高级技术专家Robert Ober则将其进一步细化为数据中心三大硬件创新和六大趋势,三大创新分别为:硬件的智能化、整个数据中心的可靠性以及大数据分析所需的分布式系统架构。六大趋势分别为:
4月9日云存储服务商Dropbox发布数项新应用,如照片应用Carousel允许用户浏览和共享存储在云服务中的图片。而移动电子邮件Mailbox的亮点是通过将重要附件保存在云服务中来减少垃圾邮件。该公司CEO德鲁?休斯顿(Drew Houston)将公司的新举措称为开启“第二篇章”,旨在发挥Dropbox的现有优势,使用户拥有更多理由忠诚于Dropbox 的云存储服务。
前美国国务卿康多莉扎?赖斯 (Condoleezza Rice)也闪亮加盟Dropbox,成为公司第四位董事会成员。去年,赖斯经营的国际咨询公司RiceHadleyGates一直在为Dropbox的管理提供咨询。休斯顿(Drew Houston)表示,虽然其他企业的存储服务价格更低,但仅Dropbox一家能够实现文件在多个设备之间的同步。谷歌、微软和苹果虽都提供免费服务,但用户只能在专属这些企业的设备或应用中使用。Dropbox扮演着瑞士一般的中立国角色,可允许用户将运行Windows系统的笔记本电脑上的文件,在 iPhone或Android平板中进行无缝更新。
作为OpenStack的人气存储技术之一,Ceph与Swift和GlusterFS一样有着各自的优势:GlusterFS更适合Hadoop类型的服务;Swift适合更多人访问;Ceph的未来更被看好,并已得到许多知名机构的支持,比如CERN和天河2。
Ceph事实上是目前OpenStack生态系统中呼声最高的开源存储解决方案。这一点从笔者在OpenStack 2013 HongKong Summit上的亲身体验可以得到印证。目前,以HP、Dell、Intel等为代表的企业IT领导厂商,和以Mirantis、eNovance、United Stack为代表的若干OpenStack社区新兴厂商,都将Ceph作为重要的乃至于首选的开源存储解决方案,详细内容请点击 原文。
其他云计算热点新闻: Hadoop集群环境下网络架构的设计与优化、 CloudFoundry架构优化:NATS集群化方案、 EMC:大数据时代中对于数据保护的重新定义、 从火种到核心,浅析Hadoop大数据用户的演变、 云计算战争:OpenStack vs. VMware,更多云资讯请继续关注CSDN 云计算频道 。(审校/仲浩)
以“
云计算大数据 推动智慧中国 ”为主题的
第六届中国云计算大会 将于5月20-23日在北京国家会议中心隆重举办。产业观察、技术培训、主题论坛、行业研讨,内容丰富,干货十足。票价优惠,马上
报名 !