Суперкомпьютер Tesla Dojo научился выявлять дефектные чипы без перебоев в работе

Одна из главных проблем — так называемое «тихое повреждение данных» (SDC), которое характерно для процессоров с высокой плотностью ядер и длительным временем работы. Обучающие плитки Dojo включают до 8850 64-битных ядер на архитектуре RISC-V, при этом ошибки могут возникать без видимых признаков неисправности.
Система Stress назначает каждой вычислительной единице уникальную программу, позволяя выявлять сбои в процессе работы без остановки системы. Ядра при этом обмениваются данными между собой, что увеличивает эффективность обнаружения дефектов в 10 раз.
Stress способна выявлять неисправности среди миллионов активных ядер. Обычно ошибки фиксируются после анализа от 1 до 100 ГБ тестовых инструкций, однако в сложных случаях требуется более 1 ТБ. Помимо этого, система помогает находить архитектурные ошибки и программные уязвимости на этапе развёртывания.