Linuksa

Problemy ze sprzętem: rozszyfrowywanie ukrytych błędów

By Simon , on 3 października, 2025 , updated on 3 października, 2025 - 3 minutes to read
Notez-moi

Komputer, który zawiesza się bez ostrzeżenia, serwer, który restartuje się pod obciążeniem: za tymi objawami kryją się błędy sprzętowe często kryjące się lepiej niż oprogramowanie szpiegujące w rozszerzeniu Chrome.

Od czasów Spectre i Meltdown oprogramowanie układowe, mikrokod i jądro grają w kotka i myszkę z lukami, których ani Dell, ani Apple nie są w stanie całkowicie wyeliminować.

Rozszyfrowanie tych usterek staje się koniecznością, aby utrzymać przyzwoitą wydajność w 2025 roku, zwłaszcza że każda redukcja=auto kosztuje milisekundy… i kilka watów.

Problemy sprzętowe: Góra lodowa pod jądrem

Nowoczesne procesory składają się z miliardów tranzystorów; każda optymalizacja otwiera drzwi do spekulacyjnych ataków.

Meltdown 2018, Spectre v2, Retbleed: tak wiele nazw nawiedza dzienniki zmian Linuksa i BIOS-y Lenovo, HP czy Asus.

Z każdą nową luką Microsoft, Samsung lub Acer publikują mikrokod, który ją naprawia, a następnie jądro dodaje łatkę, aby ją naprawić. Spectre, Meltdown: Żywy bestiariusz

Jądro 6.17 zawiera już 17 rodzin luk, z których każda jest kontrolowana przez własną opcję cmdline.

Z spectre_v2_user, spectre_bhi i innymi jesteśmy blisko inwentaryzacji w stylu Préverta i fatalnej literówki w Grubie. Apple, MSI i Toshiba regularnie publikują informacje o wydajności: załatana maszyna czasami działa o 15% wolniej niż przed poprawką.Kontrola wektorów ataku: Porządkowanie puszki Pandory

Aby uniknąć przekształcenia /proc/cmdline w dadaistyczny poemat, jądro wprowadza kontrolę wektorów ataku (AVC).

Pojedyncza dyrektywa, mitigations, zarządza pięcioma klasami ochrony: no_user_kernel, no_guest_host, no_cross_thread i dwiema pozostałymi klasami pokrewnymi.

Poprawia to czytelność, ale także elastyczność: serwer bez KVM może wyłączyć no_guest_host i odzyskać cenne cykle. Wydajność: Gdzie trafia utracona energia?

Każde ograniczenie zapobiega wyciekowi kodu spekulatywnego, ale zmusza procesor do częstszego opróżniania potoków. Na Dellu W centrach danych HP i Lenovo mierzą wpływ co do wata; rachunek za energię czasami dyktuje politykę bezpieczeństwa.

Zdiagnozuj błąd sprzętowy bez lupy oscyloskopowej

Sporadyczne zamrożenie niekoniecznie oznacza panikę jądra; zanim zrzucisz winę na sterownik, sprawdź, czy mikrokod jest konieczny.

dmesg | mikrokod grep

ujawnia załadowaną wersję: jeśli pochodzi sprzed 2024 r., błąd BHI może nadal się czaić.

W systemie Windows 11 narzędzie

Kontrola stanu komputera Microsoft

teraz wyświetla listę CVE nadal aktywnych po stronie oprogramowania sprzętowego, co jest pierwszym rozwiązaniem przyjętym z zadowoleniem przez społeczność open source.

Kiedy wyłączyć zamiast łatać?

Środowiska bez wirtualizacji, takie jak stacja graficzna Asus ProArt, mogą używać mitigations=no_guest_host, aby zwiększyć opóźnienia GPU. I odwrotnie, hiperwizor VMware na komputerach Acer lub Samsung musi utrzymywać te zabezpieczenia, nawet jeśli maszyny wirtualne są powolne.

Kompromis w zakresie bezpieczeństwa i wydajności obecnie określa się obciążenie po obciążeniu, a nie dystrybucję przez dystrybucję. Źródło:

www.heise.de

Simon

Ingénieur système linux passionné par l'optimisation et la sécurité des infrastructures. Avec 34 ans d'expérience de vie, je m'efforce de résoudre des défis techniques avec créativité et efficacité. Toujours à l'affût des dernières innovations technologiques, j'aime partager mes connaissances et collaborer avec des équipes pour atteindre des objectifs communs.

See the publications of this author

Comments

Leave a comment

Your comment will be revised by the site if needed.