普通视图

发现新文章,点击刷新页面。
昨天以前首页

弱鸡鸡的机房

2024年11月27日 09:35

某次单位进行电力监控的升级改造,要在半夜的时候断电进行操作。理论上大半夜没有作业,大家都在睡觉,这样的操作影响应该是最低的,但关键是第二天,整个单位的业务瘫痪了。因为浪潮的智能化系统挂掉了。我一整天都不知道是怎么回事,反正就好像单位那个刷车车船排队的网页无论如何打不开,理论上正常的话,单位早上8、9点就会有重车校验的图片以及说明,但是那一天一整天都没有,从调度信息来看,理论上那天是要装船的,但是车船记录都没有。我以为是微信在平板上登录了,但实际上没有,所以我退出了手机的微信。我还清楚记得那天是周日,因为那天傍晚吃过晚饭我回单位,但结果是当我准备从家里离开的时候,打开手机打开微信才发现单位同事找我要前几天的库存数据。一个管网络的人找我要库存数据,你们的数据就没有备份?后来我才知道,因为半夜进行电力改造,但是单位的服务器没有提前手动关掉,所以对服务器来说,等于是突然断电,突然断电导致数据丢失,并且出现莫名其妙的错误。

机房的升级改造之前,浪潮的数据库会出现错误,绝大多数情况都是缓存数据满了,于是新的数据没法写入,这时,你能看到非常明确的提示,接下来,网管同志就知道该如何做了,另外一个情况就是整个系统越用越慢,这种情况谁也说不清到底是怎么回事,但重启一下就好了。

电力监控改造是有计划的,但是管机房的人却少了这个心眼手动把数据库关掉。在机房改造之前,我不知道那里有多少设备、有多少UPS,直到周二我去询问情况的时候才被告知,现在的机房服务器的设备多了很多,UPS也大了很多,但现在的UPS蓄电池只能支撑两个小时。两个小时能做什么?即便机房24小时都有人值守,但可能打个瞌睡都不止两个小时了。

这一次也是一个周日,我们遇到了也说不准到底是什么原因的突然停电,而且是半夜停电,可想而知,服务器们又是突然就挂掉,因为那些UPS甚至无法支撑到天亮就全部耗尽了。停电的那一天,我第一走进机房,看到那些UPS蓄电池的放置场所我的第一个反应是为什么就只放半人高呢,又是周二,我才被告知,那个地板的承受能力也就只能在那个面积上面堆这么多蓄电池了。我感觉那堆蓄电池的占地大概几个平方。虽然堆起来密度已经不小了,但是它们却仅仅能支撑十几米一堵墙那么多服务器两个小时的电量,可能除了那些服务器以外,还包括空调。在改造之前,据说以前的UPS只能支撑20分钟。20分钟,我即便收到信息马上赶过来都赶不上,但2个小时,如果发生在半夜,同样无解。为什么要搞UPS呢?就是为了停电的时候还有个后路,但2个小时的设计等于没有路。既然升级机房的时候你要选择华为分布式的服务器,华为怎么可能不告诉你我至少得有多少UPS蓄电池支持才能持续运行多长时间。
UPS不能保证你一直没有问题,但起码得支撑到管理员到达现场处理或者远程处理。让我觉得非常不可理解的是为什么他们既然知道UPS在启动了、UPS的电量不足了,但是服务器却没有一个逐步保存关闭的程序。突然断电服务器肯定受损,而且那种受损是你无法预知到底损在了哪里。知道没有电,就进行逐步自动关闭,等于是模仿人工应急的操作,能把损害降到最低,为什么就没有这个自动自我关闭的设定呢?是华为自己没有这个设定,还是浪潮根本就没往这方面想?为什么其它的机房不会有这种问题,人家的UPS蓄电池到底用多久?别人的电路到底有多少条?为什么别人能保证当这一条电路不行的时候能切换到另外一条?哪怕都不行了以后,依然能保证服务器里面的东西安全。

周日的停电,除了让我们的生活非常痛苦以外,现在的后遗症很明显,就是浪潮的应用跟数据库出岔子了。整套智能化系统基本属于瘫痪的状态。突然停电算是意外的天灾,但是一次又一次在同一个问题上摔跤,依然没有一个确切的解决方案,这就是人祸。

近况更新:第三次换工作

2022年11月7日 05:00

最近发生了太多的事情,也没有更新 blog,来冒个泡。

我基本上是一个很长时间才会换一次工作的人,说好听点就是爱惜羽毛(工作经历),注重长期积累而非短期回报,说难听点那叫懒得动弹。

记得在 2012 年初的时候,我在人生中第一次换工作,从华为跳到亚马逊,那时候我已经在华为干了三年半了,其中的主要动机一个是想开阔眼界,另一个是可以不那么辛苦。

接着就是 2018 年初,在亚马逊干了六年之后,第二次换工作,从亚马逊跳到甲骨文,主要动机有两个,一个是我想在职业生涯有个突破,去参与云计算的浪潮;第二个是我觉得当时我的薪水已经严重偏离市场能给我的待遇了,所以想去谋取一份更合理的薪水。

这一次,在甲骨文干了 4 年 9 个多月,第三次换工作,下一站是一家相对较小的公司 DoorDash。这次的主要动机有三个,一个还是职业生涯方面的,如今干的事情越来越偏离我认为工程师最应该干的事情,做很多的 process management,很多的协调和扯皮,很多的项目和任务管理,以及很多的 ops,而在技术方面也缺乏足够多有意思的挑战;第二个则是在 compensation 方面遭遇了一个出乎我意料的大 cliff,它让我非常不爽,于是我觉得必须得离开才能得到合理的待遇;第三个,则是客观的经济大环境,决定了现在风险资产都在低位,它就像一个照妖镜,是好公司和好的商业模式,还是风口上的猪,如今都看得清清楚楚,目光放远的话,这就是一个宏观上的 “抄底” 良机。

这一次找工作和五年前不同,客观方面,又是裁员,又是 slowing down 或者 hiring freeze,这次市面上的机会明显少得多,而且我觉得僧多粥少的原因也让 hiring bar 高得多;主观方面,工作很忙,琐事很多,我也就没有那么多时间去准备,面的公司也少了不少。于是,最后我的选择也没有五年前那么多。

我觉得在长期通胀和经济衰退的大背景下,我觉得有两件事情对公司来说无比重要,一个是经济护城河,或者说,将成本转嫁到消费者身上的能力;另一个则是现金流。在两者都满足的情况下,我觉得,小一点的公司更有回弹的潜力,而且,我都在大公司干了快 15 年了,是很想去中小公司体验一把的。于是 DoorDash 在我看来,是一个不错的选择。对于新的团队,我做了一些功课,也和 manager 聊了一些,这个团队是负责 Gateway 的。

对于我在 Oracle(OCI)的故事,之前都还不错,可有点遗憾的是最后的收尾并不那么美。整个过程其实很冗长、很复杂,今年暑期左右我的老板,以及老板的老板都撤了,这件事可以说好多人都是管理层政治斗争的牺牲品,其中的细节我就不透露了,但显而易见的是,对于工程师来说,这样的事情显然是非常不喜欢的。从我自己选择的角度来说,当时没有及时决断并离开,而是抱着走走看看的心态,现在看来是一个不太好的决策。

长远来看,这一次的过程中,我也得到了一些经验,有了一些启发。曾经在几年前,我就考虑过,在接近 15 年工作经验的时候,要改变策略,依然是软件工程师,依然是 Individual Contributor,这点不变,可在有了一定的积累之后,我决定不再是什么都想尝试一下了,而要变得稍微挑剔起来,初步确定下细分的一个方向。

最近这些年来,我都没有去做直接面向互联网一般用户的产品,而是立足于一个有足够影响力的数据平台,偏向于基础设施层面,关注于一个完整的解决方案栈,而非单一的某个具体技术或者具体服务。从这些年积累的经验和熟悉的技术栈来说,我觉得未来我还会继续遵循着这样的思路。

对于现在的大环境,每天都有裁员的新闻产生,我也陆续收到好几个求职方面的求助,对于那些职场上经验不深的工程师朋友们,如果你有能力做到未雨绸缪(注意,这是前提,毕竟只是 “站着说话不腰疼” 就太恶劣了),那么,我的建议就很简单了:第一,时刻准备着被裁,你有余粮,你有技能,你有经验,永远有你的 plan B;第二,经济周期就是这样,好好坏坏,心中不慌,淡定思考,把经济的低谷视作黄金机会。如果第二条觉得自己做不到,那很有可能就是因为第一条没有做到。“此处不留爷,自由留爷处”。

前几天和朋友聊天,朋友问,你这个时间点换工作是逆势而为啊,肉身抄底,可抄到底了吗?把自己赔里面怎么办?我说,这谁知道啊,08 年我毕业那会正好是上一波的低谷,如今算是第二波——过了一年,要大形势还在恶化,咱可以接着抄啊。

当然,我也知道很多朋友出于种种原因,没法做到足够的 “未雨绸缪”,或者已经被裁员波及,比如在北美拿工作签证的工程师朋友们。那么,如果你需要,也可以和我联系(网站的右上方有我的各种联系方式),我很愿意在力所能及范围之内帮助你,即便无法帮到你,咱们也可以聊一聊,也许有些困惑就解开了,最不济,说不定心里也会舒坦一些。

文章未经特殊标明皆为本人原创,未经许可不得用于任何商业用途,转载请保持完整性并注明来源链接 《四火的唠叨》

❌
❌