🇹🇭 สาเหตุที่ระบบขัดข้อง
ทีมเทคนิคพบว่ามีหนึ่งในเครื่อง Server ที่ไม่ตอบสนอง ทำให้ Job ที่ต้องถูก Process ด้วย Server ดังกล่าวไม่ทำงาน ส่งผลให้ระบบแคชไม่สามารถอ่านข้อมูลได้เนื่องจากมีข้อมูลค้างมากเกินไป ส่งผลให้ระบบอื่น ๆ ล่ม
ช่วงเวลาที่ได้รับผลกระทบ
วิธีแก้ไขปัญหาระยะยาว
ทีมเทคนิคได้เพิ่มเงื่อนไขการตรวจจับให้กับ Server ทุกตัวให้ Restart ตัวเองหากว่าไม่ตอบสนองเรียบร้อยแล้ว
ช่วงเวลาที่ได้รับผลกระทบ
3 ตุลาคม 2565 เวลา 10:24 น. - 11:24 น.
วิธีแก้ไขปัญหาระยะยาว
ทีมเทคนิคได้เพิ่มการตรวจจับหาก Server มีปัญหาจะถูกบังคับ Restart ทันที
🇬🇧 Root cause of an incident
One of our servers is unresponsive, So the job that has to process with that server was stuck and stacked till other services couldn’t read data from the caching system, and the Page365 system was down.
Affected period
Oct 3, 2022, from 11:24 a.m. - 12:24 p.m. (GMT +08:00)
Long term solution
The technical team added a metric that while detecting server fault, it will restart automatically.