ช่วยวิเคราะห์ log และชี้แนะแนวทางวิธีแก้ไขให้หน่อยครับ

1.ผมไปเก็บ SERVER มาตัวนึง รุ่นประมาณปี 47 Hardware ต่าง ๆเป็นของ server ทราบว่ายังไม่เคยมีการใช้งานจริงจังเลย(เก่าเก็บ) Dual XEON 2.66 ,ECC RAM 2x512 ,H/D 2xSCSI 32 GB.

2.ผมเพิ่ม H/D IDE 40 GB. เข้าไป 1 ตัว ติดตั้ง Lenny Beta 2 ที่ H/D ตัวนี้ ส่วน 2xSCSI ทำ software raid แล้ว mount เป็น /home ราบรื่นดีจน update compile kernel และลง application ต่าง ๆ กำลังนึกกระหยิ่มของดี ๆเอามาทิ้งไว้ได้ โอ้โฮ System Bogomips 21270.77 แน่ะ ผมยังไม่เคยมี SERVER ขนาดนี้เลย เคยแต่ใช้ PC ทั่ว ๆไป คราวนี้แหละจะได้ใช้ของดี

3.ทิ้งไว้ 1 คืน (ประมาณ 16 ชั่วโมง) คิดว่าเครื่องนี้แหละจะให้เป็น web server ,ftp server สำหรับนักเรียนไว้ทำแบบฝึกหัด ไว้ส่งงาน(ของนักเรียนปัจจุบัน H/D เป็น IDE แต่ทำ software raid ไว้) กำลังวางแผนจะย้าย users และ /home/* มาเครื่องนี้ แต่ปรากฎว่ามันโชว์หราหน้าจอว่าอย่างนี้
Jul 10 09:42:16 debian kernel: EDAC MC0: CE - no information available: e7xxx CE log register overflow
Jul 10 09:42:17 debian kernel: EDAC MC0: CE page 0x37cab, offset 0x0, grain 4096, syndrome 0x4208, row 4, channel 1, label "": e7xxx CE
Jul 10 09:42:22 debian kernel: EDAC MC0: CE page 0x37cab, offset 0x0, grain 4096, syndrome 0x4208, row 4, channel 1, label "": e7xxx CE
Jul 10 09:42:26 debian kernel: EDAC MC0: CE page 0x3eaf0, offset 0x0, grain 4096, syndrome 0x4208, row 4, channel 1, label "": e7xxx CE
Jul 10 09:42:27 debian kernel: EDAC MC0: CE page 0x37cab, offset 0x0, grain 4096, syndrome 0x4208, row 4, channel 1, label "": e7xxx CE
แค่นี้แล้วหยุด ENTER ก็ขึ้น prompt ปกติ การทำงานอื่น ๆตามที่ต้องใช้ก็ทำงาน(แต่เวลาใช้งานจริงผมไม่ได้ต่อ Monitor) มันเป็นอะไรครับ ร้ายแรงหรือไม่แค่รำคาญ แก้ไขได้ไหม ผมดูไม่ออกว่ามันเป็นข้อบกพร่องตรงไหน ช่วยทีครับ อยากใช้เครื่องตัวนี้

EDAC = EDAC (Error Detection and Correction)
เป็น module หนึ่งที่ใช้จัดการความผิดพลาดของ hardware เช่น RAM แบบ ECC เป็นต้น

ผมไม่แน่ใจนะครับว่ามันใช้งานอยู่ไหม ลองสั่ง
# rmmod edac_mc
ซึ่งน่าจะทำให้ error หายไปไม่มากวนใจแต่ไม่น่าจะใช่วิธีที่ดีที่สุด ต้องถามผู้รู้ท่านอื่นๆ ครับ

รายละเอียดดูที่ link ข้างล่าง

EDAC Project
http://bluesmoke.sourceforge.net/

bug ของ RHEL
https://bugzilla.redhat.com/show_bug.cgi?id=191506

ขอขอบคุณมากครับที่กรุณาชี้แนะ...

เกิดขึ้นอีกครั้ง
Jul 11 12:20:10 debian kernel: EDAC MC0: CE page 0x351, offset 0x0, grain 4096,$...

ลองดู rmmod edac_mc
ERROR: Module edac_mc does not exist in /proc/modules

เข้าไปดู เจอแต่ e7xxx_edac 6788 0 - Live 0xf8965000
เลยหลับหูหลับตา
rmmod e7xxx_edac
ที่ monitor show
Jul 11 14:04:40 debian kernel: EDAC PCI: Removed device 0 for e7xxx_edac EDAC PCI controller: DEV 0000:00:00.0
Jul 11 14:04:40 debian kernel: EDAC MC: Removed device 0 for e7xxx_edac E7501: DEV 0000:00:00.0
ส่วนอื่นยังทำงานปกติเหมือนเดิม
ผมไม่มี card เสียบที่ PCI Slot เลย
Clear หน้าจอแล้วจะติดตามดูอีกวัน อย่าเพิ่งทิ้งผมนะ Please...

เงียบไปแล้วครับไม่มีอะไรโวยวายที่ monitor และใน syslog ก็ไม่มีอะไรผิดปกติส่วนใหญ่เป็น cron หลังจากที่ Compile kernel อีกเป็นครั้งที่ 2 คราวนี้ได้ตัดไอ้ที่รู้จักแน่ ๆและรู้ว่าไม่ต้องใช้แน่ ๆออกไป ไอ้ที่ไม่แน่ใจก็ปล่อยไว้ linux-image ลดขนาดลงเล็กน้อย System Bogomips 21270.70 เพิ่มขึ้นเป็นจุดทศนิยม 21270.93 ทิ้งไว้ Uptime 2 days 20 hours 42 minutes ยังเงียบ เลยไม่รู้กันเลยว่าเป็นเพราะเหตุใด แต่น่าจะใช้ได้แล้วล่ะครับ จะเดินหน้าต่อ ย้าย users มาที่ใหม่และจะใช้แทนตัวเก่าแล้วล่ะ ตัวเก่าเอาไปทำไรดี P4 1.8 DDRRAM 1.0Gb. 1xIDE 80 Gb. 2xSATA 80 Gb. ทำ Software raid แล้วก็ bonding interfaces ด้วย ทำตามข้อมูลที่หาพบในเว็บล้วน ๆจำไม่ได้ด้วย จะทำใหม่ก็ต้องเปิดดูใหม่ เรื่อง bonding interfaces นี่ผมว่า Debian ว่าง่ายกว่าใคร eth0 4.52 MB 18.08 MB 0/0
eth1 311.83 MB 569.85 MB
ยังเอียง ๆเดี๋ยวปรับ option ดูอีกที

อะไรคือ "HA" ครับนึกไม่ออก ชี้แนะหน่อยครับ

ตกใจหมด นึกว่าหยาบ เกือบเสนอลบ comment แล้วมั้ยล่ะ เอิ๊ก ^_^'

เอาแล้วไง พี่ท่านก็ HA ใช่ย่อยนะก๊าบ

อาการเดิมมาอีกแล้วครับ
ลองถาม google

ด้วยคำว่า "EDAC MC0: CE"
ได้คำตอบประมาณว่า ให้ไปดู http://buttersideup.com/edacwiki/WhyAmIgettingMemoryErrors
ภาษาอังกฤษพอกล้อมแกล้ม อาจเป็นได้เพราะความเก่าเก็บนั่นกระมัง ถอดแรมมาแล้วใส่ใหม่ยังไม่เปลี่ยน slot ดูอาการต่อ

ถามต่อ "e7xxx_edac" ซึ่งเป็น Kernel modules
ก็กระโดดไปกระโดดมา แล้วมาตกปุ๊ลงตรงหน้าแรกของ web นี้ ประมาณ lenny: แก้ปัญหา waiting for root file system อ้าว! เกี่ยวกันด้วยเหรอมึนแล้ว ทำไงต่อดีล่ะเนี่ย

**อยากใช้เครื่องนี้จริง ๆ ปกติใช้แต่ PC Hardware ผ่านเรื่องนี้ไปก่อน แล้วจะลอง "HA"
*** ดีใจและเป็นเกียรติอย่างยิ่ง

Creative Commons License ลิขสิทธิ์ของบทความเป็นของเจ้าของบทความแต่ละชิ้น
ผลงานนี้ ใช้สัญญาอนุญาตของครีเอทีฟคอมมอนส์แบบ แสดงที่มา-อนุญาตแบบเดียวกัน 3.0 ที่ยังไม่ได้ปรับแก้