从Gitlab数据库被删无法完全恢复看数据备份的重要性和操作性

  • 时间:
  • 浏览:0
  • 来源:5分PK10APP下载_5分PK10APP官方

说归说,后要 Gitlab 的核心人物,我们歌词 都不讨论我们歌词 都的发展问提。我们歌词 都来聊一聊 gitlab 这次事故面前的可是我问提。

很庆幸 Gitlab这次事件是公开避免的,从后期多方的建议里我发现了点细节

首先,小哥高工作负载,混混当当的就去避免数据库了,感觉不应该.各行各业规则不同但相信大每项后要求操作者不还可否 休息好有清醒的头脑,这次事件应该会略微改变gitlab的工作表策略

其次,这次事件中6个备份方案完正失效,这就代表那些方案有很大的漏洞.可是我在后期专家也给gitlab提出了可是我意见,可是我那些备份方案应该有事前演练模拟确保可行性才不还可否 .

第三,事后2nd Quadrant的CTO – Simon Riggs 在他的blog上也发布文章 Dataloss at Gitlab 给了可是我非常不错的建议:

PostgreSQL支持为superuser保留连接,但会 比顶端这一改进最好的办法更好。

另外也支持为用户组设置连接limit。

看鬼才提到masql备份,那上rds啊。也是自动备份~ 哈哈哈

已经 傻逼同事回滚了数据库,还好利用biglog 通宵回复了!

51干警网 克隆qq链接去分享

在youtube上看直播到半夜,最后GitLab的工程师在总结的已经 瞌睡虫已袭脑,虽然坚持不住。

5重备份后要能用的情形虽然少见,加进进我一种生活不混计算机行业,也那末 操作过那末 大的数据量的数据库,经验不多,但港真,备份之路,任重而道远。

但会 稍差点的使用phpmyadmin备份数据库,稍再好点的命令行备份,再高点的编写脚本自动备份到其它空间。但无论用那些最好的办法进行数据库的备份,但数据的完正性也是重中之重。

对于我而言,技术有限,那末 那些有点儿高深的最好的办法,那末 大数据库实操过,可是我有错误和严重不足请指正。

但每次备份完成时候要进行数据完正性验证,但会 备份大小和数据库实际大小相差较大,那肯定是备份有问提了!

我在现实中进行备份的已经 但会 数据库小基本是采用多份备份,但会 数据量比较大,基本是多点备份,自动脚本备份到专用备份机器,或是分卷存入OSS。利用计划任务进行定时备份。

目前正在学习对数据库进行增量备份,对于数据量较大的数据库不但会 每次都备份一份完正的数据库,可是我增量备份显得有点儿要,那末 恢复起来也是比较方便。

但会 之不还可否 遇到数据量较大的数据库,再实践总结经验吧!

芬达iamfander 克隆qq链接去分享

szm. 已获得定制笔记本 克隆qq链接去分享

聂焱 克隆qq链接去分享

4. 调整 PostgreSQL 的配置,线上环境中 PGSQL 的连接数过大,由于着备份失效,从60 00降到60 0,但会 使用数据库连接池。

Gitlab 但会 是做公共服务。可是我在备份这件事上还是比较看重的,GitLab.com 号称有五重备份机制:常规备份(24小时做一次)、自动同步、LVM快照(24小时做一次)、Azure备份(只对 NFS 启用,对数据库无效)、S3备份。这次事故居于时,所有备份完正无效!

幸好还有那末 “也许可行”的四个小时前的备份,数据成功的被恢复回来。

淘公仔 x 4

mikifuns 已获得淘公仔 克隆qq链接去分享

鬼才神兵 已获得优酷VIP季卡 克隆qq链接去分享

事件居于的已经 在坐火车,错过了数据库恢复的直播,不过根据相关的新闻,也看出来恢复的过程不还可否 说十分的艰辛,但会 最终恢复的数据还是6个小时已经 的,也说明数据库的恢复工作很繁复。但会 后要运维工作,可是我在数据库备份操作上的经验还是比较少的,但会 还是有可是我接触的,说下当时人的见解。

1847738211627475 克隆qq链接去分享

好在代码数据那末 丢失,丢失的是 PR 和 Issue 的讨论信息,对于众多码农,但会 会挑选使用 GitLab 来自建版本控制或使用 github 提供的企业服务。

这次事件给我们歌词 都的警示:

工程师也是人,人谁无过,敢于承担,可是我最大的避免最好的办法

但会 从中也发现的问提是:gitlab的员工并不一定熟悉PostgreSQL....致命伤

最后,我虽然运维应去尝试用脚本去避免而后要当时人手动避免那些..

从管理淬硬层 上说:

1、敬畏生产环境,人为操作总会出現操作失误;

2、有加班到项目一种生活是项目管理不善。

天空补天 克隆qq链接去分享

1.关于PostgreSQL 9.6的数据同步hang住的问提,但会 有可是我Bug,正在fix中。

2.PostgreSQL有4GB的同步滞后是正常的,这后要那些问提。

3.正常的停止从结点,会让主结点自动释放WALSender的链接数,可是我,不应该重新配置主结点的 max_wal_senders 参数。但会 ,

停止从结点时,主结点的复数连接数不不调快的被释放,而新启动的从结点又会消耗更多的链接数。他认为,Gitlab配置的3那末 链接数> 太高了,通常来说,2到那末 就足够了。

4.另外,已经 gitlab配置的max_connections=60 00太高了,现在降到60 0个是合理的。

5.pg_basebackup 会先在主结点上建那末 checkpoint,但会 再刚开始同步,这一过程大约不还可否 4分钟。

6.手动的删除数据库目录是非常危险的操作,这一事应该交给多多tcp连接 来做。推荐使用刚release 的 repmgr

7.恢复备份也是非常重要的,可是我,也应该用相应的多多tcp连接 来做。推荐使用 barman (其支持S3)

8.测试备份和恢复是那末 有点儿要的过程。

引用

为什么我么我不不阿里云(ง •̀_•́)ง

vic.86 克隆qq链接去分享

技术上说:

1、定期数据备份或数据快照;

2、多库容灾机制;

数据的重要性并不一定,几乎所有的业务都离不开数据,那末 对待数据的态度也应该淬硬层 重视。我的想法是使用那末 独立运行在不同主机数据库,数据库A和数据库B。但会 提供那末 访问接口I,I的功能应该满足那末 几点:

1.只可是我涉及到不更改数据的查询默认访问A(前提是A正常)

2.只可是我涉及到更改了数据的查询默认都访问

3.一旦有那末 数据库故障,所有查询访问正常的那个,并发出预警故障的数据库,及时去修复。

4.但会 那末 都出问提了,慢慢跑路吧……

双数据库操作,但会 会影响到可是我数率单位,对可是我影响数率单位的操作进行优化,降低影响。

sxx1314 克隆qq链接去分享

傻仙人 已获得淘公仔 克隆qq链接去分享

定制笔记本 x 1

2月1日著名的数据的代码托管网站 Gitlab 的那末 工程师在长期疲劳操作时,不慎误删数据,等工程师反应过来,60 0G 生产环境数据被删的只剩 4.5G 。不过这一小哥倒是那末 跑路,可是我挑选了直播回复数据。在经过近 7 个小时后的努力,数据最终恢复成功,但会 依然是丢失了 6 个小时的数据。

GitLab 简直挺诚实的。不过但会 合理操作,是不还可否 恢复百分之九十以上的数据的。已经 下餐厅厨房也删过一次磁盘,但会 另一个人还记得的话。

码农|Coder| Pythonista

人非圣贤孰能无过,公司对员工是不念百般好只看一时遭。有胸怀的企业才适合那末 的人才栖身。赞

zhlhuang888 克隆qq链接去分享

不不还可否最终恢复,得感谢已经 的备份,"将来的你,后要感谢现在做好备份的当时人!"

针对这次事故,Gitlab 也给出了当时人的避免方案和未来针对备份的ToDo list

做运维,宁可冗余,不可轻易删除。写多多tcp连接 操作数据库也是,加个标记位 deleted 来标记删除,避免什么时间操作错了,数据没了。

德哥 已获得淘公仔 克隆qq链接去分享

优酷VIP季卡 x 1

国外的数据库管理貌似比国内的差啊,前段时间炉石传说也出現数据库故障,备份不可用呢,说是暴雪那边DBA运维的后要网易这边运维。

luneice 克隆qq链接去分享

azinoa 克隆qq链接去分享

给Gitlab提点建议:

我以为内容是讲如何恢复的,结果可是我报道了一下而已!但会 能讲恢复过程或最好的办法告诉我们歌词 都就非常完美了。还有视频连接有不?想去学习学习!

51干警网 克隆qq链接去分享

人事以非 克隆qq链接去分享

备份最重要的是校验备份完正和正确性,但会 就算60 重备份后要无用功。可是我也提醒了我们歌词 都,数据库类似备份脚本/多多tcp连接 加进成功备份且简单校验判断以及存储成功判断是必要的。另外可是我日常维护时root权限使用了,sudo rm -rf / 的白痴做法现在依旧另一个人会犯

有个客户把10年的企业数据用空数据库还原复盖了。最终花了半个月时间,通过完正备份加差异备份恢复到已经 。备份永远不不多,一次问提就够呛。

并不一定疲劳驾驶,喝酒不上机,上机不喝酒,尤其别动数据库;

建议要对rm命令设置alias,常见做法是设置别名为mv到指定目录;

备份和恢复验证同在,定期从备份数据进行恢复演练,既验证备份数据算不算完正有效,也验证恢复方案算不算靠谱;

践行DevOps的无指责文化,尤其是在做事故分析时。事故分析重在定位由于着,制定改进最好的办法;

在避免事故时,一定要考虑避免最好的办法算不算会引发连锁故障,重要操作三思而行;

应急预案还是要做的,此次事故响应和修复周期非常长,备用硬件不给力,且丢失数据,对用户而言是难以接受的;

千万并不一定在改进最好的办法中增加线上操作的领导审批环节,不仅于事无补,后要影响数率单位;

bearyes 已获得淘公仔 克隆qq链接去分享

搞数据库的各位,估计都都看这一图,以自嘲当时人的 DBA 身份。不过,2月1日(北京时间)大年初五,GitLab 就搞了个大新闻,删了数据库!

溪欲焰 克隆qq链接去分享

webghost 克隆qq链接去分享

众所周知,使用sql误删数据库,即便数据库做好了主从备份,从库也同后要执行误删命令的。这和硬件故障由于着的数据丢失情形不同。

对于这一技术大神来说,随手删删数据但会 恢复,但会 通过直播的形式找回来。顺便上上全球各大科技媒体新闻的事情,我等吃瓜群众非要围观。

我来的话我平时建站的备份策略。

对于服务器来说有了阿里的快照这一神器,就不怕它数据误删类似的。像异地容灾,自动备份但会 传到云盘的最好的办法我是不削一顾的。阿里云快照万岁~ 么么哒

通过修改PG内核,不还可否 做到为replication用户保留了连接。