CPU,GPU,TPU,NPU 의 각각의 역할

2023. 5. 29. 19:09인공지능 개요

반응형

 

CPU(Central Processing Unit)와 GPU(Graphics Processing Unit)는 모두 컴퓨터의 필수적인 구성 요소입니다. CPU는 컴퓨터의 두뇌라고도 불리며, 모든 작업을 제어하고 실행합니다. GPU는 그래픽 처리를 담당하는 장치로, 컴퓨터 게임이나 비디오 편집과 같은 작업에서 빠른 성능을 제공합니다. 최근에 와서는 CPU와 GPU는  두 가지 모두를 활용해야 컴퓨팅 능력이 향상되어 변화하면서 CPU와 GPU의 차이점과 각각에 가장 적합한 워크로드가 무엇인지를 항상 명확하게 구분 지을 수 없게 되었습니다.

CPU와 GPU는 다음과 같은 몇 가지 주요 차이점이 있습니다.

구조: CPU는 일반적으로 몇 개의 코어를 가지고 있으며, 각 코어는 한 번에 하나의 작업을 처리할 수 있습니다. 반면 GPU는 수천 개의 코어를 가지고 있으며, 각 코어는 간단한 작업을 처리할 수 있습니다.
성능: CPU는 일반적으로 GPU보다 빠른 속도를 제공합니다. 그러나 GPU는 CPU보다 많은 데이터를 한 번에 처리할 수 있습니다.
용도: CPU는 일반적으로 범용 작업에 사용됩니다. 반면 GPU는 그래픽 처리와 같은 특정 작업에 사용됩니다.
CPU와 GPU는 각각 장단점이 있습니다. CPU는 일반적으로 더 빠른 속도를 제공하지만, GPU는 더 많은 데이터를 한 번에 처리할 수 있습니다. CPU는 범용 작업에 사용되지만, GPU는 그래픽 처리와 같은 특정 작업에 사용됩니다.

CPU와 GPU를 선택할 때는 작업의 특성을 고려해야 합니다. 범용 작업을 수행하는 경우 CPU를 선택하는 것이 좋습니다. 그래픽 처리와 같은 특정 작업을 수행하는 경우 GPU를 선택하는 것이 좋습니다.

다음은 CPU와 GPU를 사용하는 몇 가지 예입니다.

CPU: 웹 브라우징, 문서 작성, 게임
GPU: 비디오 편집, 3D 모델링, 인공 지능


CPU와 GPU는 모두 컴퓨터의 필수적인 구성 요소입니다. 작업의 특성을 고려하여 CPU와 GPU를 선택하면 최상의 성능을 얻을 수 있습니다.

 

GPU

신경망 처리장치라고 불리우는 Neural Processing Unit / NPU 는  기계학습에서도 인공신경망학습에 치중해있는 기능을 갖춘 칩을 말합니다. 기존에는 GPU를 이용하는 체계나 FPGA등을 이용하는 시스템 등이 널리 쓰이고 있었으나 이런 시스템의 가장 큰 단점은 원래 이런 용도로 쓰이는 제품이 아니라서 원하는 연산성능을 뽑아내기 위해서 쓰이는 에너지가 매우 높은 수준인 경우가 많았다. 이 때문에 AI연산 학습을 위한 최소한만 남겨서 AI 연산만 전용으로 할 칩의 필요성이 대두되었고 이에 맞춰 실제로 AI연산 워크로드에 맞춰 ASIC을 통해 만들어진 칩을 NPU라고 부르게 되었습니다.

따라서 상용화된 NPU는 전력대비 AI 연산능력이 기존 칩들에 비해 매우 우월한 수준을 갖추는 것에 성공했습니다. 따라서 현재는 기존 프로세서에 AI연산용으로 NPU부분이 추가되거나 AI연산기기에 전용 프로세서로써 사용될 예정입니다.

NPU

 

 

TPU

TPU (Tensor Processing Unit) 구글에서 발표한 뉴럴 기계번역 논문에 의하면 특정 조건하에서 TPU의 속도는 GPU(Tesla K80, Kepler 코어 2개가 장착되어 있다)의 10배 이상 빠르다고 합니다. Cloud TPU 리소스는 머신러닝 애플리케이션에서 주로 사용되는 선형대수 연산 성능을 가속화합니다. TPU를 사용하면 복잡한 대형 신경망 모델을 학습시킬 때 정확성 달성 시간을 최소화할 수 있습니다. 다른 하드웨어 플랫폼에서는 학습하는 데 몇 주가 걸렸던 모델이 TPU에서는 몇 시간이면 수렴 단계에 도달할 수 있습니다. 물론 해당 속도는 기계번역 과정에서의 디코딩 단계에서 측정한 거라 굉장히 제한된 조건하에서 측정한 것입니다. 기계 번역의 디코딩 단계는 학습단계와 달리 beam search라고 부르는 '가능한 탐색 루트에서 최적의 루트를 찾아내는 탐색과정'이 필요합니다. GPU는 CPU와 달리 탐색과 같은 범용처리에 굉장히 약하므로 이러한 탐색 연산은 GPU에서만 돌릴 수는 없고 CPU와 데이터를 주고받으면서 처리해야 하는데 문제는 PCI-E 버스에서 생기는 레이턴시가 너무 길어 GPU의 장점인 빠른 병렬 처리속도를 상쇄한다는 것입니다.TPU도 마찬가지로 CPU에 탐색을 의존해야 하지만 구글에서는 레이턴시 문제를 효과적으로 해결한 것으로 보입니다. 


반응형