Jame’s Reading 06-28

WBOY
發布: 2016-06-07 16:35:26
原創
1051 人瀏覽過

运维相关:监控, 运维思想, 高容错设计. Bring the Noise_ Making Effective Use of a Quarter Million Metrics Presentation.pdf http://t.cn/zHe6VNH Etsy员工Abe Stanway 介绍他们最近做的Skyline与Oculus,1. 他们通过StatsD为系统收集了大量的Metrics信

运维相关:监控, 运维思想, 高容错设计.
Bring the Noise_ Making Effective Use of a Quarter Million Metrics Presentation.pdf” http://t.cn/zHe6VNH Etsy员工Abe Stanway 介绍他们最近做的Skyline与Oculus,1. 他们通过StatsD为系统收集了大量的Metrics信息,2.苦于如何找到metrics的异常以及相关关系,3.简要介绍这个实时异常监测系统。

http://t.cn/zH8CD03 Etsy对监控系统的改进,1. Skyline,一个异常监测模块,根据一定的算法,为各个metrics设置一个动态调整的阈值上下限,方便Graph的查看与比较,2. Oculus,一个metrics的模式识别组件,将有同等变化趋势的Graph组合到一起进行展示,方便对系统进行诊断。

http://t.cn/zH8csbt 杜绝指责的故障事后分析。通常,在遇到一个故障后,我们都会指责(责备)具体某个具体操作的人,认为是他不够认真,是他不够小心,是他能力不足…。John Allspaw在本文中详细了说明了Etsy 是更加关注他是在什么情况下,看到什么现象,做出了哪种判断,何种假设,执行了哪些操作

应用容错设计与运维: http://t.cn/zHeiEHk , Netflix 在Velocity会议上介绍其Hystrix(http://t.cn/zHeiEHD的ppt, 其中涉及多种经典的故障隔离方法, 如Bulkhead/Circuit breaker/Fail Fast/Fail Silent (具体概念请参考《Release IT》),相关的Wiki文档在:http://t.cn/zHeiEHe 容错设计的典范。

http://t.cn/zH8fmSt 关于运维的85条基本规则,1. 容量第一,2. Keep it simple,3.Cache仅仅应该被用来提升用户体验,而不是缓解容量问题,4. 不要一切工具/内容都自己写,5. 丢数据是最不可容忍的事情,6.了解系统的瓶颈,并知道该如何解决,7.要有有效的容量管理程序。……

系统设计相关:
http://t.cn/zHkbxuO Jonathan Ellis 讨论Cassandra遭遇的几个大的误解,1. Cassandra is a map of maps,这是我最初的理解,现在可以以表/字段的含义来理解了,2.对读支持较差,经过几年的优化,目前表现已经不错,3.难以利用,4.难以基于它进行开发,5.还不够成熟. 总的来讲,其实这几个问题已经得到很大缓解

http://t.cn/zjgGjwY http://t.cn/zHe6ZVQ 两个Ebay使用Cassandra,深度介绍他们为什么选择Cassandra(多机房支持、高可用、可扩展,卓越写性能),在哪些场景使用(社交相关、用户习惯信息、时间虚列信息),以及如何设计这几类系统的。

http://t.cn/zHdEXxN Jeff Darcy针对James Hughes(http://t.cn/zHdEXxp 的一个PPT做的评论,James认为传统的分布式文件系统,由于元信息系统的管理开销,导致其扩展性受到限制. 从Jeff的角度看, 这是因为James看到了一个分布式并不那么文件系统的HDFS的角度, 而整体上冤枉了传统的分布式文件系统.

http://t.cn/zHdQdC2 Facebook使用高级纠错码(erasure codes)来解决数据的冗余成本问题. 使用 Locally Repairable Codes(LRC,局部可修复码)来替代传统的Reed-Solomon码,在多牺牲14%空间的情况下,获得一倍的磁盘IO能力以及快一倍的恢复效率,并显著减少网络开销. Windows Azure也在使用类似的技术.
相关论文与代码, Facebook的论文: http://t.cn/zHdQFVU facebook的代码: http://t.cn/zHdQFV4 windows Azure的论文地址: http://t.cn/zHdQFVL

http://t.cn/zHEBgRu (谢谢 @zolker ) Facebook的数据总线Wormhole , 几点理解:1. 基于数据库Redo的消息流, 2. 按照业务分片做消息分片,3. 会保留一定的消息历史,保留数据库的txid(原子性),做基于时间点的【可靠有序】消息处理,4.处理效率有待进一步发布的论文确认,5.秒峰值千万DML(10m/s)。

http://t.cn/zHERaBj (@何_登成 已经转过), 我的一点总结:1. CPU不是速度/效率不能提升,而是散热/频率不能提升,2. 内存/磁盘/硬盘 对于顺序读写的支持能力都更好,3. 内存对顺序/随机的处理能力差别有2-3倍,如果Cache友好,可以到几十倍,4. 磁盘差别有100倍(1-2MB,100MB),5.软件要围绕硬件特征去设计.

http://t.cn/zHRkw6L 从5个角度来理解Scalability的含义,1. 从算法角度看,如果能将O(n)的算法改进成O(1)或O(Logn)的算法, 2. 应用架构角度看, c10k问题的解决以及其思路,3.无状态的设计,4. 层次化设计,类似于内存层次结构,5.系统架构,利用不同的硬件.

http://t.cn/zH8e9kA Jonas Bonér (Typesafe的CTO,AKKA背后的公司),介绍如何实现事件驱动的、可扩展的、能容错的系统,其中关于Performance Vs Scalability,阻塞、异步、锁机制的解析,关于消息系统的ACK的说法,容错机制的设计(Bulkheads?)都很不错。

Oracle技术相关:
http://t.cn/zTUHTum 如何切换到普通的监听日志格式. 在使用Oracle 11g的时候,会在Diag下产生大量XML格式的listener日志文件, 虽然很不错, 但是由于有基于普通listener.log日志文件的分析工具,这些xml的文件实际上没有啥价值了, 可以通过diag_adr_enabled_listener = off来关闭此日志.

http://t.cn/zHBB6XU Oracle数据库相关的压力测试工具概览. 1. IO压测工具(orion/iometer ). 2. 数据库级别的测试工具(SLOB ,DBMS_RESOURCE_MANAGER.CALIBRATE_IO),3. 应用级的测试工具(Hammerora ,Swingbench,simora),4. 基于应用的测试工具(LoadRunner).

其它:非技术问题
http://t.cn/zHQesew 周其仁江南论坛发言 户籍制度改革时间表. 最后,周其仁说,改革不论有多难,现在都要跟腐败和社会的溃败赛跑,要和社会主体人群的期望值赛跑,要把不损害他人利益的法外活动吸纳到体制中来,变成合法制度化的运作过程。

观念的水位,刘瑜认为,社会的变革需要大众的观念作为前奏,之所以没有发生根本的变化,很多时候只是因为目前的水位还不够,她对中国的未来充满希望,只是因为现在,大家的观念的水位由于新的信息传播机制的变化,已经有了明显的提高。良治社会的到来有赖于观念水位的进一步上涨。

迷人的谎言, 崔卫平在《经济观察报》的影评专栏合集,崔卫平的文字一如既往的细腻,对于电影、人性的深度解析,本书中介绍了大量的经典的电影,以及这些电影导演(伯格曼、波兰斯基、基耶斯洛夫斯基)在拍摄这些电影时的状态,追求,心路历程。

旧山河,作者刀尔登,刀尔登的文笔非常的犀利,对于历史的掌故每每都是手到擒来,不过,总体上讲,他的文字更多是通过这些历史掌故剖析现时的社会。每篇文字都有很多逗人发笑的地方,以至于我几乎是一口气将这本书读完的。刀尔登早期混迹江湖的笔名为三七,我是从2005年开始喜欢这哥们的文字的.

Related posts:

  1. Jame’s Reading 10-14
  2. Jame’s Reading 09-10
  3. Jame’s Reading 07-25
相關標籤:
來源:php.cn
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板