프록시 정규화 활성화를 통해 ,CNN(합성곱 신경망)에서 배치 종속성 제거

Graphcore Research는 그들의 새로운 기술인 “프록시 정규화”가 어떻게 메모리 효율적인 합성곱 신경망 훈련을 위한 상황을 조성하였는지 설명한다. Graphcore의 새 논문에서 프록시 정규화는 이전에 비효율적인 실행을 초래했던 배치 종속성의 복잡성을 제거하면서 배치 정규화의 이점을 유지하는 것으로 나타났다. 프록시 정규화는 기계 학습 모델 크기가 계속 증가하고 데이터 세트가 계속 커짐에 따라 AI 엔지니어가 향후 실행 효율성을 보장하는 데 도움이 될 수 있다.

정규화에서의 과제

정규화는 신경망을 크고 깊은 모델로 성공적으로 확장하는 데 중요하다. 정규화의 범위는 원래 입력 처리로 제한되었지만 (Lecun et al., 1998), 네트워크 전체에서 정규화된 중간 활성화를 유지하는 배치 정규화 (Ioffe & Szegedy, 2015) 기술의 도입으로 인해 다른 수준이 되었다.

배치 정규화가 적용하는 특정 정규화는 채널별 정규화이다. 이는 구체적으로 배치 정규화가 채널별 평균을 빼고 채널별 표준 편차로 나누어 중간 활성화를 정규화한다는 것을 의미한다. 특히 배치 정규화는 신경망의 표현도를 변경하지 않고 이러한 채널별 정규화를 달성한다. 즉, 배치 정규화된 네트워크의 표현도는 비정규화된 네트워크의 표현도와 동일하다. 이 두 가지 속성, 즉 채널별 정규화와 표현도 보존이 모두 유익하다는 것을 알 수 있다.

불행하게도 배치 정규화는 동등하게 중요한 문제인 배치 종속성을 동반한다. 전체 데이터 세트에 대한 채널별 평균 및 분산은 쉽게 계산할 수 없기 때문에 배치 정규화는 현재 미니 배치를 전체 데이터 세트에 대한 프록시로 고려하여 이러한 통계치를 근사한다 (그림 1 참조). 배치 정규화의 계산에서 미니 배치 통계를 사용하는 경우 신경망에서 주어진 입력에 연결된 출력은 이 입력뿐만 아니라 미니 배치의 다른 모든 입력에도 의존한다. 즉, 미니 배치 통계를 사용해 전체 배치 통계를 근사하기 위해 신경망의 계산에 배치 종속성을 도입한다.

그림 1: 각 서브 플롯은 동일한 정규화 통계를 공유하는 파란색으로 강조 표시된 구성 요소 그룹을 특징으로 하는 특정 정규화 기술에 해당한다. 각 서브 플롯에서 중간 활성화 텐서는 배치 축 N, 채널 축 C 및 공간 축 (H, W)으로 구성된다. (Wu & He, 2015)의 그림.

이제 배치 정규화를 자세히 살펴보고 채널별 정규화 및 표현도 보존이 유익한 이유와 배치 종속성이 복잡한 이유에 대해 알아보자. 그 다음, “배치 종속성을 제거하면서 배치 정규화에 필적할만한 프록시 정규화 활성화”에 제시된 Graphcore Research의 새로운 기술인 프록시 정규화에 대해 소개하고 배치 종속성을 제거하면서 프록시 정규화를 사용하여 배치 정규화의 두 가지 이점을 유지하는 방법을 살펴보겠다.

배치 정규화의 첫 번째 이점: 채널별 정규화

위에서 언급했듯이 배치 정규화는 채널별로 정규화된 중간 활성화를 각 레이어에서 비선형성에 “가까이” 유지한다. 이 채널별 정규화에는 두 가지 이점이 있다.

비선형성은 정규화에 가까운 채널별 분포에서 “작용”하기 때문에 이러한 채널별 분포와 관련하여 효과적으로 비선형이 될 수 있다. 그런 다음 각 레이어는 표현도를 추가하고 신경망은 전체 깊이를 효과적으로 사용한다.
서로 다른 채널의 분산이 비슷하기 때문에 채널은 균형이 잘 잡혀 있고 신경망은 전체 너비를 효과적으로 사용한다.

간단히 말해, 채널별 정규화를 통해 신경망은 전체 용량을 효과적으로 사용할 수 있다. 그러나 이러한 이점은 배치 정규화에 대한 프로토타입 배치 독립적 대안으로 유지되지 않는다(그림 1 참조). 실제로 채널별 정규화는 인스턴스 정규화로 유지되지만 레이어 정규화 또는 그룹 정규화에서는 유지되지 않는다. 그림 2의 왼쪽 상단 플롯에서 이는 레이어 정규화 및 그룹 정규화를 사용한 무시할 수 없는 채널별 제곱 평균으로 해석된다.

배치 정규화의 두 번째 이점: 표현도 보존

앞에서 설명한 바와 같이 배치 정규화를 사용한 채널별 정규화는 신경망의 표현도를 변경하는 대가를 치르지 않는다. 즉, 배치 정규화의 척도 및 이동 매개 변수가 적절하게 선택되면 모든 비정규화된 네트워크를 배치 정규화된 네트워크 (전체 배치 설정에서)로 동등하게 표현할 수 있다. 반대로 컨볼루션 가중치와 바이어스가 적절하게 선택되면 모든 배치 정규화된 네트워크(전체 배치 설정에서)는 비정규화된 네트워크로 동등하게 표현될 수 있다. 요컨대 배치 정규화는 신경망의 솔루션 공간을 분명하게 다시 매개변수화하는 것과 같다.

이러한 표현도의 보존은 배치 정규화의 두 번째 이점이다. 이러한 표현도의 보존이 유익한 이유를 이해하려면 배치 정규화에 대한 배치 독립적 대안을 사용한 표현도의 변경이 왜 유해한지 이해하는 것이 도움이 된다. 인스턴스 정규화 및 그룹 정규화의 경우 표현도 변경의 증상은 그림 2의 가장 오른쪽에 있는 두 개의 서브 플롯에서 볼 수 있는 것처럼 인스턴스의 평균 및 표준 편차의 분산 부족이다. 인스턴스 통계의 이러한 분산 부족은 신경망의 심층 계층에서 높은 수준의 개념 표현과 호환되지 않는 경향이 있으므로 학습에 유해하다.

Proxy Norm Figure 2

그림 2: 인스턴스의 제곱 평균(왼쪽) 및 분산(오른쪽)은 다양한 Norm을 사용하여 ResNet-50의 ImageNet 훈련의 모든 연대에 대해 평균(위) 및 인스턴스 표준 편차(아래)를 평균한다. 인스턴스 통계는 다양한 레이어의 깊이(x 축)에서 정규화 후 계산된다.

배치 정규화의 복잡성: 배치 종속성

배치 정규화의 배치 종속성의 주요 증상은 각 미니 배치에서 서로 다른 입력을 임의로 선택하여 발생하는 노이즈가 있다는 것이다. 이 노이즈는 전체 배치 통계가 미니 배치 통계로 근사될 때 배치 정규화 계층 사이에서 전파되고 모든 배치 정규화 계층에서 “강화”된다. 따라서 미니 배치가 더 작을 때 노이즈가 더 강해진다. 이 현상은 강도가 노이즈 진폭과 미니 배치 크기에 따라 달라지는 배치 정규화(Luo et al., 2019)의 특정 정규화로 해석된다.

불행히도 이 정규화는 쉽게 제어될 수 없다. 목표가 이 정규화의 강도를 줄이는 것이라면 이를 달성하는 유일한 방법은 미니 배치 크기를 늘리는 것이다. 작업 및 필요한 정규화 강도에 따라 배치 정규화는 최적의 성능과 양립하는 미니 배치의 크기에 하한을 부과한다. “계산된” 미니 배치 크기가 이 하한보다 작을 때 최적의 성능을 유지하려면 여러 작업자간에 통계를 “비싸게” 동기화하여 “계산된” 미니 배치보다 큰 “정규화” 미니 배치를 생성해야 한다 (Yin et al., 2018). 따라서 배치 종속성으로 인해 발생할 수 있는 주요 문제는 실행의 비효율성이다.

이 문제를 해결하면 Graphcore의 IPU를 사용할 때 실질적인 차이를 만들 수 있다. IPU가 제공하는 추가 가속 및 에너지 절약은 더 엄격한 메모리 제약을 대신하여 얻을 수 있기 때문이다. 로컬 메모리에 덜 의존하는 대체 가속기를 사용하더라도 이 문제는 미래에 중요해질 수 있다. 데이터 세트가 점점 더 커짐에 따라 더 크고 더 큰 모델을 사용하면 더 강력한 메모리 제약이 부과될 것으로 예상된다. 주어진 모델 크기에 대해 더 큰 데이터 세트를 사용한다는 것은 또한 더 적은 정규화가 필요하다는 것을 의미하므로 배치 정규화와 같은 배치 종속 표준을 사용할 때 최적의 성능을 보장하기 위해 더욱 더 큰 “정규화” 미니 배치가 필요하다.

프록시 정규화: 배치 종속성을 제거하면서 배치 정규화의 이점을 유지

그렇다면 배치 종속성을 제거하면서 배치 정규화의 이점을 유지하려면 어떻게 해야 하는가?

배치 정규화의 두 가지 이점(예: 채널별 정규화 및 표현도 보존)은 배치 정규화에 대한 프로토타입 배치 독립적 대안으로 동시에 유지될 수 없다. 한편, 레이어 정규화는 표현도를 유지하는 데 효과적이지만 채널별 비정규화를 희생해야 한다. 반면에 인스턴스 정규화는 채널별 정규화를 보장하지만 표현도를 크게 변경해야 한다. 그룹 정규화는 레이어 정규화의 문제와 인스턴스 정규화의 문제 사이에 더 나은 균형을 제공할 수 있지만 여전히 원을 사각형으로 만들 수는 없다. 요컨대, 배치 정규화에 대한 모든 프로토 타입 배치 독립적 대안은 성능 저하를 초래한다.

이 문제를 해결하려면 표현도를 유지하면서 동시에 채널별 비정규화를 피할 수 있는 배치 독립적 정규화가 필요하다. 다음 사항에 주목하여 이 두 가지 요구사항을 보다 정확하게 만들 수 있다.

채널별 비정규화를 담당하는 주요 연산은 (i) 정규화 연산을 따르는 학습가능한 아핀 변환 (ii) 활성함수이다
표현도는 신경망에 아핀 연산을 삽입할 때 보존된다.

이러한 관찰이 새로운 기술인 프록시 정규화의 설계로 인도했다. 프록시 정규화는 정규화 작업의 출력을 채널별 정규화에 가깝다고 가정하는 가우스 “프록시” 변수로 동화한다. 이 가우스 프록시는 실제 활성화와 동일한 두 연산, 즉 동일한 학습 가능한 아핀 변환 및 동일한 활성 함수에 공급된다. 이 두 연산 후 프록시의 평균과 분산은 최종적으로 실제 활성화 자체를 정규화하는 데 사용된다. 이것은 그림 3에 묘사되어 있다.

proxy norm diagram

그림 3: 프록시 정규화는 기존의 블랙 연산 위에 "저렴한" 레드 연산을 추가하여 신경망에 통합된다.

프록시 정규화는 채널별 비정규화의 두 가지 주요 소스, 즉 학습 가능한 아핀 변환 및 활성 함수를 보충하면서 표현도를 보존할 수 있다. 이는 프록시 정규화와 레이어 정규화 또는 그룹 정규화를 적은 수의 그룹과 결합하는 배치 독립적 정규화 접근 방식을 채택하도록 한다. 그림 2에서 볼 수 있듯이 이 배치 독립적 정규화 접근 방식은 채널별 정규화를 유지하면서 표현도의 변경을 최소화한다. 이 접근 방식을 통해 배치 종속성을 제거하면서 배치 정규화의 이점을 유지한다.

다음 질문은 이 접근 방식이 실제로 좋은 성능으로 이어지는지 여부이다. 배치 정규화를 배치 독립적 접근방식과 비교하려면 배치 정규화와의 배치 종속성으로 인해 추가된 정규화를 적절히 고려하기 위해 특별한 주의를 기울여야 한다. 따라서 이 정규화 효과를 “빼기” 위해 각 실험에 추가 정규화를 포함한다.

그림 4에서 볼 수 있듯이 특별한 주의를 기울이면 배치 독립적 접근 방식의 ImageNet 성능은 다양한 모델 유형 및 크기에서 배치 정규화의 성능과 일관되게 일치하거나 이를 초과한다 (EfficientNet의 변형은 관련 블로그 게시물 및 논문에 소개되어 있다). 이는 배치 독립적 접근 방식이 동작뿐만 아니라 성능에서도 배치 정규화를 필적함을 의미한다!

분석의 부산물로서 우수한 ImageNet 성능을 위해서는 효율적인 정규화가 필요하지만 적절한 정규화도 함께 제공되어야 한다는 것을 알게 되었다. 더 큰 데이터 세트에서는 정규화가 덜 필요하다는 점을 감안할 때 효율적인 정규화만으로 충분할 것으로 예상한다 (Kolesnikov et al., 2020; Brock et al., 2021).

Proxy Norm Figure 4

그림 4: 배치 정규화, 그룹 정규화 및 그룹 정규화 + 프록시 정규화를 사용한 다양한 모델 유형 및 크기에서의 ImageNet 성능.

결론

이 작업에서 당사는 합성곱 신경망에서 정규화의 내부 작용을 탐구했다. 효율적인 정규화가 (i) 채널별 정규화를 유지하고 (ii) 표현도를 보존해야 한다는 이론적 및 실험적 증거를 모두 수집했다. 배치 정규화는 이러한 두 가지 속성을 유지하지만 배치 종속성의 복잡성을 유발한다.

배치 정규화에 대한 프로토 타입 배치 독립적 대안을 조사할 때 채널별 정규화와 표현도의 보존을 동시에 얻는 것이 어렵다는 것을 발견했다. 이로 인해 채널별 정규화를 유지하면서 표현도를 보존하는 새로운 기술인 프록시 정규화를 설계하게 되었다. 이는 프록시 정규화와 레이어 정규화 또는 그룹 정규화를 적은 수의 그룹과 결합하는 배치 독립적 정규화 접근 방식을 채택하도록 한다. 이러한 접근 방식은 항상 배치 독립성을 유지하면서 동작과 성능 모두에서 배치 정규화와 일관되게 일치한다는 것을 발견했다.

당사의 접근 방식은 합성곱 신경망의 메모리 효율적인 훈련을 위한 길을 열었다. 이러한 메모리 효율성은 실행 효율성을 높이기 위해 로컬 메모리를 활용하는 Graphcore의 IPU와 같은 가속기에 상당한 우위를 제공한다. 장기적으로 이 메모리 효율성은 대안 하드웨어에서도 중요할 것으로 예상된다.