
AMD-ovi EPYC Rome čipovi su se “srušili” poslije 1044 dana rada

Foto: pcmag
AMD-ov najnoviji vodič za reviziju procesora za EPYC 7002 ‘Rome’ serverske čipove otkriva zanimljivu novu (grešku) koja može uzrokovati da jezgro na stane sa radom nakon 1044 dana rada (~2,93 godine), nakon čega ćete morati da resetujte server da bi čip ispravno radio. AMD kaže da ne može riješiti problem.
AMD-ov opis problema, koji utiče na njegove EPYC procesore druge generacije (AMD-ovi Genoa čipovi četvrte generacije su najnoviji), je jezgrovit, ali ima mnogo toga za objašnjavanje.
Problem potiče od toga što jezgro nije uspjelo da izađe iz stanja mirovanja CC6, ali AMD kaže da bi tajming kvara mogao da varira u zavisnosti od proširenog spektra i REFCLK frekvencije, od kojih je posljednji referentni sat koji pomaže čipu da prati vrijeme.
Reddit korisnik acid_migrain ima vjerodostojnu teoriju o tačnom vremenu prekida jezgra, rekavši: „Uprkos onome što kažu, problem se zapravo manifestuje na 1042 dana i otprilike 12 sati. TSC otkucava na 2800 MHz i 2800 * 10**6 * 1042,5 dana je skoro jednako 0x380000000000000, što ima previše nula da ne bi bilo slučajno.”
Zaobilazno rješenje je jednostavno – ili ponovo pokrenite sistem prije 1044 dana neprekidnog rada, što resetuje CPU da ponovo pokrene vaš „tajmer“ od 1044 dana, ili onemogućite stanje mirovanja CC6.
Sada, iako je ova 2,93-godišnja greška za rušenje jezgra zanimljiva, pitanje je da li je to zaista važno. Naravno, važno je, uprkos činjenici da bezbjednosna ažuriranja i održavanje treba da se rade u mnogo, mnogo kraćim intervalima.
Najrealističniji scenario bi jednostavno bili oni koji koriste Linux funkciju popravke uživo ili kexec za ažuriranje bez ponovnog pokretanja — to bi sigurno moglo dovesti do vrste produženog vremena rada koja bi pokrenula grešku. Takođe, serveri za kritične aplikacije često imaju produženo vrijeme rada.
Iako je ova greška zanimljiva, za većinu korisnika ne predstavlja problem, a greške u čipovima definitivno nisu neuobičajene. Moderni procesori su najkompleksniji uređaji koje je konstruisalo čovječanstvo, i oni skoro uvijek dolaze na tržište sa brojnim greškama/bagovima otkrivenim tokom ili nakon što čipovi dostignu svoju konačnu reviziju isporuke (stepping).
PROČITAJTE JOŠ: