数据定义未来——2016数据库技术大会总结 背景 作为国内数据库与大数据领域最大规模的技术盛宴,2016第七届中国数据库技术大会(DTCC)如约于2016年5月12日-14日再度震撼来袭。大会以数据定义未来为主题,云集了国内外顶尖专家,共同探讨MySQL、NoSQL、Oracl
数据定义未来——2016数据库技术大会总结
作为国内数据库与大数据领域最大规模的技术盛宴,2016第七届中国数据库技术大会(DTCC)如约于2016年5月12日-14日再度震撼来袭。大会以"数据定义未来"为主题,云集了国内外顶尖专家,共同探讨MySQL、NoSQL、Oracle、缓存技术、云端数据库、智能数据平台、大数据安全、数据治理、大数据和开源、大数据创业、大数据深度学习等领域的前瞻性热点话题与技术。本届大会共设定2个主会场,25个分会场,并将吸引5000多名IT人士参会,为数据库人群、大数据从业人员、广大互联网人士及行业相关人士提供最具价值的交流平台。
--以上摘自官方宣传 http://dtcc.it168.com/
数据库圈子不大,国内论坛、微博上认识的人不少,这次算是一个大团员,很多人是闻名已久,首次见面还是非常亲切。以前也经常去一些国内大会做分享,包括运维主题的、数据库主题的都有,这已经是第七届中国数据库技术大会,虽然每次大会我都非常关注,但这是我第一次现场参加。
这次大会的主题是“数据定义未来”,会议各个分享内容比较符合主题。参会的人很多,各行各业,RDBMS、NoSQL、大数据、运维各种主题都很多。我给大会打了很多标签,总结一下:
Oracle公司副总裁吴承杨先生是大会第一个主场分享嘉宾,也是白金赞助商,以前Oracle基本不参加这样的会议,这次直接是副总裁主场首场分享,可见Oracle对这次大会的重视。吴承杨开场重点说了Oracle仍然是市场的领导者,开场就说2015年中国数据库市场,Oracle份额高达56%,而在全球Oracle占有率为43.9%。
吴承杨还重点强调了Oracle在全面拥抱云计算,去年我也去美国参加了Oracle公司举办的OOW大会,整个大会都云计算的主题,也能感受到Oracle的战略全部转到云计算上,提供IaaS+PaaS+SaaS全方面的产品服务。Oracle可以说有这样的技术基础,也有市场能力,但是云计算是技术的一次大变革,还需要有更多的技术与产品的沉淀,这个需要时间,Oracle可以说是起步晚了。另外Oracle公司太大了,产品线非常复杂,这个转型成本也深不可测,成功的概率不高,Oracle CEO Larry也70多岁,真心佩服。可以说Oracle不转型云计算肯定会死,只是5年还是8年的问题,但是转型到云计算还有可能再焕青春,也非常有挑战。
DT(Data technology)时代最早是由阿里巴巴马云在2014初宣传的,他发表了“人类正从IT时代走向DT时代”的观点。这次数据库大会,在主题演讲里听到过多位嘉宾提到DT的概念。相信DT这个概念几年后也会像IT一样深入人心。其中人大的孟小峰教授也对DT时代做了深入的解读,孟小峰教授认为马云提的DT时代并不是简单的Data technology,也不是指当前的大数据,当前大数据做得还很初级,他认为DT时代应该是Big Data+Big Knowledge+Big Application结合。IT时代电脑可以回答已知问题,DT时代应该能回答更多未知问题。
NoSQL专场,可以说是MongoDB的绝对主场,主持人是阿里云MongoDB的掌舵人杨成虎,6场topic里有4场是MongoDB,可以看出MongoDB在中国的火热,MongoDB凭借其原生分布式架构及丰富的功能,遥遥领先其它NoSQL。MongoDB是最成熟文档数据库,并且通过js实现类似SQL语言的强大表达能力,迅速跻身到主流数据库队伍,与KeyValue拉开档次。原生JSON数据结构提供强大的schema free特性,文档型主键、普通JSON索引、空间索引、JSON数组索引等支持非常成熟,加上nodejs+mongodb数据库结合就像当初php+mysql一样,这些都不是RDBMS简单加个支持JSON类型可以媲美的。MongoDB还提供GridFS来实现更友好大文档存储功能,支持MapReduce让MongoDB还可以有更多想像。MongoDB在事务方面支持很弱,这也是它较难进入数据一致性与可靠性要求非常高的场景。
不管是哪个技术会议,大数据计算可以说非常火。这次DTCC也是火得不行,以下是安排的场次
第一天(下午)专场4:实时计算与流计算
第一天(下午)专场5:SAP技术交流专场
第一天(下午)专场7:柏睿数据库技术专场
第二天(上午)主场2:聚焦大数据+引领行业变革
第二天主场 聚焦大数据+引领行业变革
第二天(下午)专场10:大数据应用及实践
第三天(上午)专场17:大数据基础设施
第三天(上午)专场18:大数据安全
第三天(上午)专场19:大数据行业应用及探索
第三天(下午)专场22:大数据生态系统及开源
第三天(下午)专场25:大数据创业
震惊了吧,还排不下,其他一些专场还安排了大数据的主题,仿佛一夜之间只有hadoop、spark、storm等大数据技术才能拯救人类一样。让人感觉搞数据库的如果没有搞大数据技术感觉要活不下去了。这种感觉和2011年时NoSQL非常像,2011年的NoSQL的各种吹捧,宣传RDBMS性能不好,NoSQL的性能是RDBMS的几倍甚至几十倍,今天大家会相对理性的看RDBMS与NoSQL。大数据概念还在膨胀,目前很多应用实现是在做如何把数据搞大,并未真正产生多少数据价值,这也是大数据技术需要反思的。大数据从宣传如何通过Hadoop等分布式框架实现的离线计算能力,到后来的Storm引领实时计算大潮,再到Spark的高性能计算,以及今天的各种算法组件或推荐引擎和更高的开发效率及更好的体验,这几年大数据技术也在全线拥抱SQL,也在探索更好的数据分析与展现体验,希望让人人都能数据分析。大数据是DT时代与人工智能的基础技术,但是目前的成果还非常有限,大数据技术未来需要脚踏实地,需要更多思考数据价值、业务价值,而不是像当初NoSQL一样只宣传技术能力。
互联网公司依然是最喜欢分享的企业,其中阿里巴巴集团贡献5场专题分享,还有腾讯、百度、京东、小米、网易、美团、360、携程、去哪儿、58同城、爱奇艺、58到家等知名企业
国内数据库服务企业也是重度参与者,包括云和恩墨、美创、沃趣等在行业内的领先者,这些企业都派出了公司资深专家参与,并且也是大会赞助商。
这次大会国企的信息部门也开始走出来,分享他们在数据库架构、大数据方面的成果,包括平安科技、农银人寿等企业,这是一个非常有意思的变化。
按分享嘉宾领域分类来排名:
1.大数据与BI数据分析 (有计算、挖掘、推荐、分析、平台、框架、安全等方面,这个不会划分,所以归在一起了)
2.Oracle
3.MySQL
4.PostgreSQL
5.MongoDB
6.国产数据库(GBase、达梦、人大金仓、柏睿数据等)
7.运维平台与通用产品中间件
8.Redis
9.SQLServer
10.HANA
当然还有更多综合领域的嘉宾,最后说一下,DB2、Sybase直接没有出现过,可以说在新的数据库时代已经出局了
南大通用GBase是这次的主角,三大钻石赞助商之一,又是专题分享、又是主场分享、还有最大的展厅、再加上包场发布会、会场人人拎着GBase的豪华大礼包 ,连参会工牌的挂带都是GBase,初看以为是GBase技术大会以,这次可以说南大通用是下血本了。
GBase了解不多,听了一下CTO的主场介绍《GBase UP--SQL与NoSQL的融合架构》,整体上还是非常有料,可以说是一个非常强大的融合,把RDBMS、NoSQL、大数据都融合了,在上层提供了统一的数据库层,对外提供通用元数据与SQL支持,可以用SQL实现异构数据源的数据流转,功能介绍很强大,但是具体实现及稳定性怎么样不太清楚。因为我也做一个类似的产品DSQL,可以实现异构数据源的统一访问,非常有价值,也很有挑战。非常希望国产数据库厂商能有自己的位置。
这次达梦、柏睿数据、山东瀚高、人大金仓、PingCAP等国产数据库企业也都有专题分享与会议赞助宣传,柏睿数据还包了个专场介绍。
除了主场上人大的孟小峰教授分享了《大数据管理系统的发展与机遇》,还首次看到大学参加数据库技术大会,并且展出了一些研究生的课题成果。看这个后我感觉挺有意思,也特意去问了几个学校的课题研究情况。不过很可惜的是他们 这次准备还不够充分,介绍得较简单,基本都是学员在参加展会与介绍。非常希望学校的研究项目也都能出来到市场上宣传,学术界与工业界应该有更多的沟通。
ElasticSearch
目前最火的开源搜索引擎,Elasticsearch是一个基于Apache Lucene(TM)的开源搜索引擎。无论在开源还是专有领域,Lucene可以被认为是迄今为止最先进、性能最好的、功能最全的搜索引擎库。
不过,Elasticsearch不仅仅是Lucene和全文搜索,我们还能这样去描述它:
分布式的实时文件存储,每个字段都被索引并可被搜索
分布式的实时分析搜索引擎
可以扩展到上百台服务器,处理PB级结构化或非结构化数据
以上摘自 http://es.xiaoleilu.com/
Elasticsearch有时候看起来更像是一个具备强大搜索引擎的数据库系统,他对内部数据管理很精细,它对每个字段都有索引,而且查询时可以很方便的做条件运算(如大于、小于之类的),可以很方便的管理基础数据(增删改查),查询与结果集都支持JSON格式,数据结构化做得很好,便于程序里处理。
Elasticsearch已经进入DB-Engines Ranking排名,目前排名第11位,可以说非常有潜力,数据库在全文检索方面一直是大痛点。附上2016.5月数据库排名情况:
RocksDB
一个中国不存在的网站facebook开源数据库存储引擎,是在google的LevelDB上做了许多改进,特点不多,暂不评价。 http://rocksdb.org/
Druid
这是一个时间序列数据库,这个不是大家经常用的druid连接池哦。 关于druid我了解不多,可以参见 http://druid.io/
1.《阿里海量数据迁移同步核心架构及最佳实践》,由我们团队的同事付大超(花名:千震)分享,会场很火爆。数据传输服务DTS已经在阿里云上提供服务,提供数据迁移、数据订阅、数据同步等功能,支持MySQL、SQLServer、Oracle、PostgreSQL、MongoDB、OceanBase等数据源,更多细节可以看 https://www.aliyun.com/product/dts/?spm=5176.7960203.237031.39.MTmadB
2.《阿里数据库团队服务产品化之路的持续探索》,这是我的主题,请鄙视我重点说一下。这个主题主要介绍了阿里巴巴数据库技术团队近几年在服务产品化方面的探索与思考。数据库技术团队已经从前几年的去IOE工作,全面转型为提升服务和产品能力。我们提供了iDB、DBFree、DRC等内部产品服务,也发布了数据传输DTS、数据管理DMS、OceanBase云服务。这中间有很多思考,也只有产品之路上才能体会。
我把数据库产品化分为4个阶段:
2003~2010-》运维工具时代
2011~2014-》平台服务时代
2015~~数据库云服务时代
2020~~数据云时代
从2003~2010年,我们一直在做运维工具,这个过程很长,在老一辈大师级DBA的带领下,我们的DBA技术及人才积累非常不错,全国近一半的Oracle顶级专家都在这里,我们曾经管理了全亚州最大的Oracle RAC集群。这个时代我们开始做很多工具,包括备份恢复、监控告警、安装配置、巡检、数据查询订正导出、SQL审核,基本是自给自足,但是规划方面较少。
2011~2014,平台服务时代,这是我们去IOE、分布式数据库、异地容灾多活全面发展的时代,我们重点在思考建设更强的平台服务,直到去年初,这个目标已经基本完成了,我们建设了iDB、DBFree、DRC等数据库基础平台,可以说是双11、去IOE、异地多活的核心产品,支撑阿里巴巴集团业务快速发展。平台服务时代在服务成本、用户体验方面还有很多提升空间,2014年,我们开始思考在云计算时代如何建设数据库服务,我们在持续梳理内部的技术与产品,目前在阿里云上输出了3款数据库云服务,帮助用户更好的使用云计算,我们在云上还输出了OceanBase云服务,这是新一代分布式金融级云数据库,另外我们内部也在建设新一代数据库云服务,通过技术与产品突破,与RDS一起更好的支撑阿里巴巴、蚂蚁金服及阿里云的业务发展。
附件数据库服务产品化上的一些小体会:
我们正处于建设数据库云服务时代,未来几年重点是要建设很好的服务体验,说说我对平台服务与云服务的理解:
平台服务:组织机构会很大影响产品规划,团队职能划分会很大影响产品形态,产品特性与SLA不清晰,更多聚焦在完成平台建设。
云服务:产品以云服务提供,用户可以非常清楚的知道产品特性与SLA,用户只要选择服务模式就可以自己完成工作。 云服务会全面以客户为中心,减少组织职能对产品体验的影响。云服务建设完成后,客户他可以从实例购买,数据库结构设计、变更、发布,数据库优化诊断,数据查询、变更、导出、迁移、同步等工作可以全部在自己的业务线完成,不会关心后端有没有DBA支持。DBA会通过产品提供基础通用的保障,包括数据库备份、安全检查、HA容灾。业务线可以找DBA一起设计数据库架构,业务DBA也会更关注提升研发同学整体数据库技能,DBA也会投入更多资源研发更先进的数据库引擎。
数据库云服务对基础技术及产品设计方面都有很大的挑战。
我们对未来数据云时代非常期待,也正在朝这个方向努力,也希望更多人能一起来建设。
数据云与大数据关系密切,但说实话,我不喜欢大数据这个词,因为他总是会让人比较数据有多大。数据云是通往更高人工智能的必经之路,在数据云时代,大数据技术已经非常成熟,大家不再关注数据 有多大,计算能力有多强,大家更关注的是谁的数据更有价值,数据采集与交易也会非常简单。数据分析挖掘与深度学习能力开始变得非常有竞争力,
数据云时代每个人做数据交易会像今天发微博或微信一样简单,人人可以选择把自己的数据贡献出来,包括家庭、爱好、日常生活信息、个人能力等等,而且可以很好的处理公共信息与隐私信息。公司也可以很方便的将自己积累的数据放在交易平台上售卖,并且解决了隐私与安全问题。当所有人都能提供与交易数据,加上强大的云端处理能力,数据云会对人类生活产生革命性的变化。
今天alphago只会下围棋,大家感觉很强,但是并不会对我们产生多大影响。在数据云时代,alphago只要连上数据云端,数据结构化了,所有人类的已知的技能学习方面都有了,它能30秒获取与学习相应领域的技巧,当你说要下象棋时,它连接云端30秒学会了下象棋,结果你玩不过他。你搬出了最拿手的Dota游戏,然后他30秒学习了Dota,你还是玩不过他,你发现面前就不是一个只会下围棋的家伙,你会感觉到数据云的威力开始不可想像,加上各种强大传感技术,真正的强AI时代就到了。
Oracle在全面转型到云计算,外面开始流行DT时代的说明,MongoDB在国内非常火,国产数据库南大通用GBase下血本了,大数据概念还在膨胀,阿里巴巴集团是技术最开放分享的公司。
叶正盛(斗佛)
2016-5-18