🇹🇭ปัญหาระบบ Cache ขัดข้อง / 🇬🇧Cache system malfunction.
Incident Report for Page365
Postmortem

🇹🇭 สาเหตุที่ระบบขัดข้อง

ทีมเทคนิคพบว่ามีหนึ่งในเครื่อง Server ที่ไม่ตอบสนอง ทำให้ Job ที่ต้องถูก Process ด้วย Server ดังกล่าวไม่ทำงาน ส่งผลให้ระบบแคชไม่สามารถอ่านข้อมูลได้เนื่องจากมีข้อมูลค้างมากเกินไป ส่งผลให้ระบบอื่น ๆ ล่ม



ช่วงเวลาที่ได้รับผลกระทบ

25 มกราคม 2566 เวลา 18:38 น. - 18:45 น.



วิธีแก้ไขปัญหาระยะยาว

ทีมเทคนิคได้เพิ่มเงื่อนไขการตรวจจับให้กับ Server ทุกตัวให้ Restart ตัวเองหากว่าไม่ตอบสนองเรียบร้อยแล้ว




🇬🇧 Root cause of an incident
One of our servers is unresponsive, So the job that has to process with that server was stuck and stacked till other services couldn’t read data from caching system, and the Page365 system was down.

Affected period
January 25, 2023, 7:38 p.m. - 7:45 p.m.

Long term solution
The technical team added a metric that while detecting server fault, it will restart automatically.

Posted Apr 05, 2023 - 11:57 GMT+07:00

Resolved
🇹🇭 พบปัญหาระบบ Cache ไม่สามารถ อ่าน/เขียน ข้อมูลได้และพยายาม Recovery ทีมเทคนิคกำลังตรวจสอบ Logs ของ Service ที่เกี่ยวข้องอย่างละเอียด หากมีความคืบหน้าจะแจ้งให้ร้านค้ารับทราบต่อไป ขออภัยในความไม่สะดวกที่เกิดขึ้น

---
🇬🇧 There was a problem with the Cache system being unable to read/write data and try to recover itself. The technical team is examining all of the service Logs that are relevant thoroughly. If there is any progress, the Technical team will update users. We apologize for any inconvenience caused.
Posted Jan 25, 2023 - 18:30 GMT+07:00