Según un informe de Phoronix, la versión 6.1 del kernel de linux introduce un nuevo sistema de registro para identificar las CPUs defectuosas y sus núcleos asociados en un servidor. El sistema de registro puede detectar exactamente qué núcleo, CPU y socket fallaron en un momento determinado.
No se trata de un sistema totalmente automatizado, y sólo sirve para el registro; no estresará la CPU para buscar fallos. Por ello, Rik Van Riel, responsable de autorizar el sistema de registro de la CPU para la versión 6.1, afirma que los administradores de sistemas querrán ejecutar el código del kernel que suele provocar fallos con un sistema con fallos conocidos con el registrador activado para ver qué núcleos están mal.
El registrador no es perfecto, ya que las tareas del kernel pueden ser reprogramadas hacia otra CPU o núcleo de la CPU, pero considera que esta estrategia es lo suficientemente buena para encontrar CPUs o núcleos defectuosos. A menudo, las fallas de la CPU pueden ser "extrañamente específicas", donde programas o piezas de código específicas bloquearán sólo el núcleo.
Este programa no está realmente diseñado para los consumidores, sino que está dirigido principalmente a los administradores de sistemas que ejecutan una serie de servidores basados en linux. Para estos administradores, esta nueva herramienta puede ser realmente útil para descubrir misteriosos fallos de hardware cuando los probadores de estrés de CPU completos, como Prime95 o Aida64, son perfectamente estables.
Los comprobadores de errores como éste, así como la nueva tecnología In-Field-Scan de Intel, siguen ganando popularidad en el sector de los servidores. A medida que las CPUs se hacen cada vez más pequeñas con nodos de vanguardia, aumentan las posibilidades de que se produzcan errores en el silicio (lo que se conoce como errores blandos).
A medida que nos acercamos más y más a los límites físicos del tamaño de los transistores (como 1 nm o menos), las CPUs deberían ser teóricamente más susceptibles a los errores, sobre todo hacia la radiación cósmica. En consecuencia, la comprobación de errores en las CPUs será exponencialmente más importante a medida que pase el tiempo y la densidad de los transistores siga mejorando.
Más información: https://www.phoronix.com/news/linux-6.1-Seg-Fault-Report-CPU
Más información sobre Linux y el Kernel:
- ¿Qué es Linux?
- ¿Qué es Linux y qué debes saber antes de usarlo?
- 5 razones por las que deberías usar Linux
- Google sube sus premios de seguridad para Linux
- Linux explicado en 5 niveles de dificultad
- Cómo usar más rápido en la terminal de Linux
- La historia detrás del Linux de escritorio interno de Google