만약 컴퓨터에서 어떤 이미지를 RGB로 처리한다고 하면, 이미지를 RGB 세 개 channel의 결합으로 생각할 수 있다.
이와 비슷하게 convolutional layer를 거치면 같은 이미지에 대한 feature map(2차원 배열)이 커널의 갯수만큼 생기게 된다.
각 feature map을 길게 늘이지 않고 channel로 나누는 이유는 local connectivity를 이용하기 위해서이다.
이미지를 처음부터 하나의 긴 벡터가 아니라 2차원의 이미지로 처리하는 것과 같은 맥락이다.
이것을 3차원으로 생각해보면
로 생각할 수 있고 따라서 channel의 갯수 = depth 라고 표현하기도 한다.
텐서: 기계가 이해하기 좋은 숫자
(기계는 이미지나 글자보다 텐서를 잘 이해한다.)