칩 오류는 점점 더 일반적이고 추적하기 어려워지고 있습니다.

세계에서 가장 큰 데이터 센터에 전력을 공급하는 서버 내부의 수백만 개의 컴퓨터 칩에 거의 감지할 수 없는 희귀한 결함이 있다고 잠시 상상해 보십시오. 그리고 결함을 찾는 유일한 방법은 10년 전만 해도 상상할 수 없었던 거대한 컴퓨팅 문제에 해당 칩을 던지는 것이었습니다.

컴퓨터 칩의 작은 스위치가 원자 몇 개만큼 줄어들면서 칩의 신뢰성은 세계에서 가장 큰 네트워크를 운영하는 사람들에게 또 다른 걱정거리가 되었습니다. 같은 회사 아마존, 페이스북, 트위터 및 기타 여러 사이트 작년에 놀라운 정전을 경험했습니다.

정전에는 프로그래밍 실수 및 네트워크 정체와 같은 여러 가지 원인이 있습니다. 그러나 클라우드 컴퓨팅 네트워크가 더 크고 복잡해짐에 따라 가장 기본적인 수준에서 여전히 덜 안정적이고 어떤 경우에는 예측할 수 없는 컴퓨터 칩에 여전히 의존하고 있다는 우려가 커지고 있습니다.

작년에 Facebook과 Google의 연구원들은 원인을 파악하기 쉽지 않은 컴퓨터 하드웨어 오류를 설명하는 연구를 발표했습니다. 그들은 문제가 소프트웨어가 아니라 다양한 회사에서 만든 컴퓨터 하드웨어 어딘가에 있다고 주장했습니다. 구글은 이 연구에 대한 논평을 거부했으며, 현재 메타로 알려진 페이스북은 연구에 대한 논평 요청에 응답하지 않았다.

컴퓨터 하드웨어 테스트를 전문으로 하는 스탠포드 대학의 전기 엔지니어인 Subhashish Mitra는 “기본적으로 기본 하드웨어에서 발생하는 이러한 조용한 오류를 보고 있습니다.”라고 말했습니다. Mitra 박사는 점점 더 많은 사람들이 제조 결함이 쉽게 포착할 수 없는 이러한 소위 소리 없는 오류와 관련이 있다고 믿고 있다고 말했습니다.

연구원들은 점점 더 큰 컴퓨팅 문제를 해결하려고 하기 때문에 희귀한 결함을 발견할까봐 걱정합니다. 이는 시스템에 예상치 못한 방식으로 스트레스를 줍니다.

대규모 데이터 센터를 운영하는 회사는 10년 이상 전에 체계적인 문제를 보고하기 시작했습니다. 2015년 엔지니어링 출판물에서 IEEE 스펙트럼, 토론토 대학에서 하드웨어 안정성을 연구하는 컴퓨터 과학자 그룹에 따르면 매년 Google의 수백만 대의 컴퓨터 중 4% 정도가 감지할 수 없는 오류가 발생하여 컴퓨터가 예기치 않게 종료되었다고 보고했습니다.

수십억 개의 트랜지스터가 있는 마이크로프로세서 또는 각각 1 또는 0을 저장할 수 있는 수조 개의 작은 스위치로 구성된 컴퓨터 메모리 보드에서 가장 작은 오류라도 이제 일상적으로 초당 수십억 개의 계산을 수행하는 시스템을 방해할 수 있습니다.

반도체 시대가 시작될 때 엔지니어들은 우주선이 때때로 단일 트랜지스터를 뒤집고 계산 결과를 변경할 가능성에 대해 우려했습니다. 이제 그들은 스위치 자체가 점점 더 신뢰성이 떨어지는 것을 걱정하고 있습니다. 페이스북 연구원들은 심지어 스위치가 마모되기 쉽고 컴퓨터 메모리나 프로세서의 수명이 이전에 생각했던 것보다 짧을 수 있다고 주장합니다.

새로운 세대의 칩이 나올 때마다 문제가 악화되고 있다는 증거가 늘어나고 있습니다. ㅏ 보고서 칩 제조업체 Advanced Micro Devices가 2020년에 발행한 보고서에 따르면 당시 가장 진보된 컴퓨터 메모리 칩은 이전 세대보다 약 5.5배 덜 안정적이었습니다. AMD는 보고서에 대한 논평 요청에 응답하지 않았습니다.

캘리포니아 마운틴뷰에서 인공 지능 애플리케이션용으로 설계된 새로운 유형의 프로세서 제조업체인 Esperanto Technologies의 회장이자 설립자인 베테랑 하드웨어 엔지니어인 David Ditzel은 이러한 오류를 추적하는 것이 어렵다고 말했습니다. 그는 자신의 회사의 새로운 칩이 이제 막 시장에 진입한 이 회사는 280억 개의 트랜지스터로 만들어진 1,000개의 프로세서를 가지고 있었습니다.

그는 칩을 미국 전역에 걸쳐 있는 아파트 건물에 비유했습니다. Mitra 박사는 Ditzel의 비유를 사용하여 새로운 오류를 찾는 것은 그 건물의 한 아파트에서 침실 조명이 켜져 있고 아파트 문이 열려 있을 때만 오작동하는 수도꼭지 하나만 찾는 것과 같다고 말했습니다.

지금까지 컴퓨터 설계자는 오류를 수정하는 칩에 특수 회로를 추가하여 하드웨어 결함을 처리하려고 했습니다. 회로는 잘못된 데이터를 자동으로 감지하고 수정합니다. 한때 매우 드문 문제로 여겨졌습니다. 그러나 몇 년 전에 Google 프로덕션 팀은 진단하기 엄청나게 어려운 오류를 보고하기 시작했습니다. 보고서에 따르면 계산 오류는 간헐적으로 발생했으며 재현하기 어려웠습니다.

연구원 팀은 문제를 추적하려고 시도했으며 작년에 결과를 발표했습니다. 그들은 수백만 개의 프로세서 “코어”를 기반으로 하는 컴퓨터 시스템으로 구성된 회사의 방대한 데이터 센터에서 물리적 한계에 가까워지는 더 작은 트랜지스터와 부적절한 테스트라는 두 가지 요인이 결합된 새로운 오류를 경험하고 있다고 결론지었습니다.

Google 연구원은 “Cores That Don’t Count”라는 논문에서 문제가 이미 해결에 수십 년의 엔지니어링 시간에 해당하는 시간을 할애할 만큼 충분히 어려운 문제라고 언급했습니다.

최신 프로세서 칩은 작업을 분할하고 병렬로 해결할 수 있도록 하는 계산 엔진인 수십 개의 프로세서 코어로 구성됩니다. 연구원들은 코어의 작은 부분 집합이 특정 조건에서만 드물게 부정확한 결과를 생성한다는 것을 발견했습니다. 그들은 행동이 산발적이라고 설명했습니다. 어떤 경우에는 컴퓨팅 속도나 온도가 변경된 경우에만 코어에서 오류가 발생했습니다.

Google에 따르면 프로세서 설계의 복잡성 증가는 실패의 중요한 원인 중 하나였습니다. 그러나 엔지니어들은 또한 더 작은 트랜지스터, 3차원 칩 및 특정 경우에만 오류를 생성하는 새로운 디자인이 모두 문제에 기여했다고 말했습니다.

유사에서 종이 작년에 발표된 Facebook 연구원 그룹은 일부 프로세서가 제조업체의 테스트를 통과했지만 현장에 있을 때 실패를 보이기 시작했다고 언급했습니다.

인텔 경영진은 구글과 페이스북 연구 논문에 대해 잘 알고 있으며 하드웨어 오류를 감지하고 수정하는 새로운 방법을 개발하기 위해 두 회사와 협력하고 있다고 말했습니다.

Intel의 데이터 플랫폼 그룹 부사장인 Bryan Jorgensen은 연구원들의 주장이 옳았으며 “그들이 업계에 던지고 있는 도전이 올바른 출발점”이라고 말했습니다.

그는 인텔이 최근 데이터 센터 운영자를 위한 표준 오픈 소스 소프트웨어를 만드는 데 도움이 되는 프로젝트를 시작했다고 말했습니다. 소프트웨어를 사용하면 칩에 내장된 회로가 감지하지 못하는 하드웨어 오류를 찾아 수정할 수 있습니다.

문제는 작년에 몇몇 인텔 고객이 시스템에서 생성된 감지되지 않은 오류에 대해 조용히 경고를 발표했을 때 강조되었습니다. 세계 최대 개인용 컴퓨터 제조사 레노버는 고객에게 알렸다 여러 세대의 Intel Xeon 프로세서의 설계 변경은 칩이 이전 Intel 마이크로프로세서보다 수정할 수 없는 더 많은 수의 오류를 생성할 수 있음을 의미했습니다.

인텔은 이 문제에 대해 공개적으로 말하지 않았지만 Jorgensen 씨는 문제를 인정하고 수정했다고 말했습니다. 회사는 이후 디자인을 변경했습니다.

컴퓨터 엔지니어들은 도전 과제에 어떻게 대응할지에 대해 의견이 분분합니다. 한 가지 광범위한 대응은 하드웨어 오류를 사전에 감시하고 시스템 운영자가 하드웨어 성능이 저하되기 시작할 때 제거할 수 있도록 하는 새로운 종류의 소프트웨어에 대한 요구입니다. 이는 데이터 센터에 있는 기본 칩의 상태를 모니터링하는 소프트웨어를 제공하는 새로운 신생 기업에게 기회를 제공했습니다.

그러한 작업 중 하나가 캘리포니아 로스 가토스에 있는 회사인 TidalScale로, 하드웨어 중단을 최소화하려는 회사를 위한 특수 소프트웨어를 만듭니다. 최고 경영자인 Gary Smerdon은 TidalScale과 다른 사람들이 심각한 도전에 직면해 있다고 제안했습니다.

그는 “비행기가 아직 비행 중일 때 엔진을 바꾸는 것과 비슷할 것”이라고 말했다.

Source link

You May Also Like