🇹🇭 สาเหตุที่ระบบขัดข้อง
ทีมเทคนิคพบว่ามีหนึ่งในเครื่อง Server ที่ไม่ตอบสนอง ทำให้ Job ที่ต้องถูก Process ด้วย Server ดังกล่าวไม่ทำงาน ส่งผลให้ระบบแคชไม่สามารถอ่านข้อมูลได้เนื่องจากมีข้อมูลค้างมากเกินไป ส่งผลให้ระบบอื่น ๆ ล่ม
ช่วงเวลาที่ได้รับผลกระทบ
25 มกราคม 2566 เวลา 18:38 น. - 18:45 น.
วิธีแก้ไขปัญหาระยะยาว
ทีมเทคนิคได้เพิ่มเงื่อนไขการตรวจจับให้กับ Server ทุกตัวให้ Restart ตัวเองหากว่าไม่ตอบสนองเรียบร้อยแล้ว
🇬🇧 Root cause of an incident
One of our servers is unresponsive, So the job that has to process with that server was stuck and stacked till other services couldn’t read data from caching system, and the Page365 system was down.
Affected period
January 25, 2023, 7:38 p.m. - 7:45 p.m.
Long term solution
The technical team added a metric that while detecting server fault, it will restart automatically.