很抱歉给大家造成不便。
今天发生了大约 12 小时的文件上传服务中断问题。
关于此次发生的问题,我们经过调查后,找到了原因,并提出未来的解决办法。
关于此次事件的原因:
基于成本考虑,此前新的上传系统将 sha1 计算放到了存储节点(存储专用服务器),而存储节点的磁盘是传统 HDD 磁盘,并且 CPU 也不是高性能的 CPU,因此对磁盘和 CPU 都造成了比较大的压力,导致系统负载不断上升,最终响应速度越来越慢,无法正常提供服务。
目前的临时解决方案是通过数台基于 SSD 的 VPS 构建了临时 L2 层阵列,专门用于处理上传任务。由于这些 VPS 的磁盘都不是很大,因此如果上传中断的文件在一个小时内没有恢复上传,之前上传的文件都会被丢弃(或者,磁盘即将耗尽时,率先丢弃闲置最长时间未完成上传的任务),再次上传时,需要从头开始。
在未来,我们将会单独构建一台高性能大容量 L2 层服务器,用于专门处理上传文件的需求,这台服务器将会匹配至少 2TB 以上的 SSD 磁盘和高性能 CPU,以快速处理上传的文件,并能提供更长时间的恢复上传选项。
我们会通过赞助者赞助的费用中筹集这台服务器的款项。按照目前的赞助者增长速度,预计会在半年内完成此目标。