[논문리서치] Accurate, Large Minibatch SGD:Training ImageNet in 1 Hour

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

💡

imageNet의 dataset에서 큰 미니배치는 최적화를 시키는데 어렵다는것을 보여줌(하지만 이 문제가 해결되면 훈련모델은 좋은 일반화를 가짐). 이 문제를 위해 미니배치 크기의 함수로 학습속도를 조정하기 위한 초매개변수 없는 선형 확장 규칙을 채택함. 또한 훈련 초기에 최적화 문제를 극복하는 새로운 워밍업 방식 개발.

This paper’s goal

분산식 비동기적 SGD(stochastic gradient descent)가 대규모 트레이닝에 적합하다는 것을 증명하고 실용적인 가이드 전달하기

큰 미니배치 사이즈를 다루기 위해 필요한 것

hyper-parameter-free linear scaling rule를 이용하여 learning rate 조정하기
- 이 가이드라인은 earlier worker에서 설립됨
- 경험적 한계는 잘 이해되지 않으며, 비공식적이기 때문에 research community에 잘 알려지지 않음
- 이 법칙을 성공적으로 적용하기 위해 새로운 준비전략 제시
  - 준비전략 = 초기 최적화문제를 극복하기 위해 낮은 learning rate 사용하기

손실 L(w)식

$\frac{1}{|X|}\sum_{x\in X}l(x, w)$
- w : 네트워크의 가중치(weight of a network)
- X : 레이블이 지정된 training set
- l(x, w) : 샘플 $\in X$ 과 라벨 y에서 계산된 손실
- l : 분류손실(교차엔트로피)와 w에대한 정규손실의 합

Minibatch stochastic gradient decent는 미니배치에서 작동함. 보통 간단하게 SGD라고 하며, 다음 업데이트를 수행함

$wt+1=wt−η1n∑x∈B▽(x,wt)w_{t+1} = w_t - \eta\frac{1}{n}\sum_{x \in B} \bigtriangledown (x, w_t)$
- $B$ : X에서 샘플링된 미니배치임
- $n = ∣ B ∣$ : 미니배치 사이즈
- $η\eta$ : learning rate
- t : iteration index

이 논문에서는 실제로 momentum SGD를 사용함.

2.1 Learning rates for Large Minibatches

목표
- 작은 미니배치 대신 큰 미니배치를 쓰면서 training과 일반화 정확도 유지하기⇒ worker별 작업량을 줄이거나 모델 정확도를 저하시키지 않고 간단한 데이터 병렬 처리를 사용하여 여러 worker로 확장할 수 있기 때문에 분산학습에서 특히 중요!
- (worker와 GPU를 같은 의미로 사용)

learning rate scaling rule이 광범위한 미니배치 크기에 놀라울정도로 효과적임linear scaling rule : 미니배치 사이즈에 k를 곱하면, 학습률에 k를 곱하기
- 다른 hyper-parameter(weight decay)는 바꾸지 않기
- linear scaling rule은 작은 미니배치와 큰 미니배치 사이에 정확도를 일치시키는데 도움을 줌. 또, training curve도 매치 시킴⇒ 실험전에 빠르게 비교하고 디버깅할 수 있게됨

interpretation
- leaner scaling rule과 왜 효과적인지 설명하겠음→ iteration이 t, weight가 w인 네트워크, $\leq j <k$ 에 대해 k개의 미니배치 $B_j$ 의 시퀀스를 고려해야함
  - k SGD iteration(작은 미니배치 $B_j$ , learning rate가 $η\eta$ )와 single iteration(사이즈가 kn 인 큰 미니매치 $∪jBj\cup_j B_j$ 와 학습률 $η^\hat{\eta}$ )을 실행 효과를 비교
    - learning rate가 $η\eta$ , 미니배치 사이즈가 n인 SGD의 k iteration
      
      $wt+k=wt−η1n∑j<k∑x∈Bj▽l(x,wt+j)−−−−(3)w_{t+k} = w_t -\eta \frac{1}{n} \sum_{j<k}\sum_{x \in B_j} \bigtriangledown l (x, w_{t+j})---- (3)$
    - learning rate가 $η^\hat{\eta}$ , 사이즈가 kn 큰 미니배치 $∪jBj\cup _j B_j$ 를 사용한 단일 단계를 사용하면
    $w^t+1=wt−η^1kn∑j<k∑x∈Bj▽l(x,wt)−−−−(4)\hat{w}_{t+1} = w_t - \hat{\eta}\frac{1}{kn}\sum_{j<k}\sum_{x \in B_j}\bigtriangledown l (x, w_t)---- (4)$
  - 예상한것처럼 업데이트 값은 서로 다르며, $w^t+1=wt+k\hat{w}_{t+1} = w_{t+k}$ 일 확률은 없음.
  - 하지만, j<k에 대해 $▽l(x,wt)≈▽l(x,wt+j)\bigtriangledown l (x, w_t) \approx \bigtriangledown l(x, w_{t+j})$ 는 가정할 수 있는 경우 $η^=kη\hat{\eta} = k\eta$ 로 설정할 때 $w^t+1≈wt+k\hat{w}_{t+1} \approx w_{t+k}$ 가 생성되고, 작은 미니배치 SGD와 큰 미니배치 SGD는 서로 유사함.
  - 또한, 강력한 가정임에도 불구하고 이것이 사실이라면, $η^=kη\hat{\eta} = k\eta$ 를 설정한 경우에만 두 업데이트가 유사하다고 강조함.
- 위 해석은 linear scaling rule이 적용되기를 바라는 한가지 경우에 대한 직관을 제공함. $η^=kη\hat{\eta} = k \eta$ (및 준비)인 실험에서 작은 미니배치 SGD와 큰 미니배치 SGD는 모델에서의 같은 마지막 정확도뿐만 아니라 training curve또환 꽤 매치됨. 실험결과는 위 근사치가 대규모 실제 데이터에서 유효할 수 있다고 제안한다.
- 그러나 조건 $▽l(s,wt)≈▽l(x,wt+j)\bigtriangledown l (s, w_t) \approx \bigtriangledown l (x, w_{t+j})$ 가 유지되지 않는 두가지 경우가 있음
  - 네트워크가 빠르게 바뀔때의 초기 훈련(initial training)⇒ 2.2의 준비단계방법을 사용해 해결
  - 미니배치 크기가 무한정 확장될 수 없음.
    - 결과는 다양한 범위의 크기에서 안정적이지만, 특정 지점을 넘으면 정확도가 빠르게 떨어짐
    - 이 지점은 imageNet 실험에서 8k보다 큼

Discussion
- 상기 linear scaling rule은 Krizhevsky에 의해 채택됨. 하지만 Krizhevsky는 미니배치 사이즈가 128에서 1024로 증가할 때 에러가 1%가 증가한다고 보고함. 반면에 우리는 훨씬 더 광범위한 미니배치 사이즈 범위에서 어떻게 정확도를 유지하는지 보여줌.
- Chen은 수많은 분산 SGD 변화의 비교를 제시함. 그들은 linear scaling rule을 사용했지만, 미니배치 기준점을 설정하지 않음.
- Li는 수렴후 정확도 손실 없이 미니배치가 5210까지인 분산 imageNet 훈련을 보여줌. 하지만 우리가 핵심적으로 기술 미니배치 사이즈로 학습률 조정을 위해 hyper-parameter search rule을 보여주지 못함.
- 최근 연구에서, Bottou 등 [4] (§4.2)은 미니배치의 이론적 장단점을 검토하고 선형 스케일링 규칙에 따라 solver가 본 예제 수의 함수로 동일한 훈련 곡선을 따르는것을 보여줌. 학습률은 미니배치 크기와 독립적인 최대 속도를 초과해서는 안 되며(따라서 웜업이 정당화됨), 전례 없는 미니배치 크기로 이러한 이론을 실험적으로 검증함.

2.2 warmup

논의한 대로, 대규모 미니배치(예: 8k)의 경우, 신경망이 빠르게 변할 때 선형 스케일링 규칙이 붕괴됨. 이는 훈련 초기에 흔히 발생함→ 이 문제를 적절히 설계된 웜업 [16]에 의해 완화시킬 수 있음.
- 훈련 시작 시에 덜 공격적인 학습률을 사용하는 전략

Constant warmup
- [16]에서 제시된 웜업 전략은 훈련의 처음 몇 에포크 동안 낮은 고정 학습률을 사용
- 사전 훈련된 레이어를 새로 초기화된 레이어와 함께 세밀하게 조정하는 객체 검출 및 세그멘테이션 방법에 Constant warmup이 유용
- 대규모 미니배치 크기 kn으로 한 ImageNet 실험에서, 처음 5 epochs동안 학습률 η로 훈련함. 그 후 목표 학습률 $η^=kη\hat{\eta} = k\eta$ 로 돌아가려고 했음. 그러나 큰 k가 주어진 경우, 이 Constant warmup만으로는 최적화 문제를 해결하기에 충분하지 않다는 것을 발견하였으며, 낮은 학습률 웜업 단계에서의 전환은 훈련 오류를 급증시킬 수 있음⇒ 이로 인해 우리는 다음과 같은 점진적 웜업(gradual warmup)을 제안

gradual warmup
- 학습률을 작은 값에서부터 큰 값으로 점진적으로 증가시키는 대안적인 warmup
- 학습률의 갑작스러운 증가를 피하며, 훈련 초기에 건강한 수렴(healthy convergence)을 허용함.
- 실제로 대규모 미니배치 크기 kn으로 시작하여 학습률을 $η\eta$ 에서 시작하여 각 반복에서 상수량만큼 증가시켜 5 epochs 후에 $η^=kη\hat{\eta} = k\eta$ 에 도달하도록 함합니다 (정확한 warmup 기간에 대한 결과는 견고함). warmup 후에는 원래의 학습률로 돌아감.

2.3 Batch Normalization with large minibatches

Batch Normalization : 미니배치 차원을 따라 통계량을 계산
- 각 샘플의 손실의 독립성을 깨뜨림
- 미니배치 크기의 변화는 최적화되는 손실 함수의 기본 정의를 변경

미니배치 크기를 변경할 때 손실 함수를 보존하기 위한 shortcut
- 통신 오버헤드를 피하기 위한 실용적인 고려
- 손실 함수를 보존하는 데 필수적
- BN이 수행되고 활성화가 샘플 간에 계산될 때는 이러한 가정이 성립하지 않음
  - 가정 : per-sample loss인 $l (x, w)$ 이 다른 모든 샘플과 독립적임
  - 크기가 n인 단일 미니배치 B의 손실을 $\frac{1}{n}\sum_{x \in B}l_B(x, w)$ 로 나타
  - BN이 적용된 경우, 훈련 세트는 원래 훈련 세트 X에서 추출된 크기가 n인 모든 구별되는 부분집합을 포함 ⇒ $X^n$
  - training loss L(w)
  $\frac{1}{|X^n|}\sum_{B \in X^n}L(B, w) \\ \\$
  - 만약 B를 $X^n$ 의 '단일 샘플(single sample)'로 보면, 각 단일 샘플 B의 손실이 독립적으로 계산됨⇒ 미니배치 크기 n이 BN 통계를 계산하는 데 중요한 구성 요소임에 유의해야 함
  - 각 worker의 미니배치 샘플 크기 n이 변경되면 최적화되는 기본 손실 함수 L이 변경되게 됨
  - BN이 다른 n으로 계산한 평균/분산 통계는 서로 다른 수준의 무작위 변동을 나타냄
  - 분산된(그리고 멀티-GPU) 훈련
    - 만일 worker당 샘플 크기 n이 고정되어 있고 총 미니배치 크기가 kn일 때
      - 각 샘플 $B_j$ 가 $X^n$ 에서 독립적으로 선택된 k개의 샘플 미니배치로 볼 수 있음.
      ⇒ 기본 손실 함수는 변경되지 않으며 여전히 $X^n$ 에서 정의됨
      - 이 관점에서 BN 설정에서, k개의 미니배치 $B_j$ 를 본 후, (3)과 (4)는 다음과 같이 계산됨
        
        $wt+k=wt−η∑j<k▽L(Bj,wt+j)w_{t+k} = w_t - \eta \sum_{j<k} \bigtriangledown L (B_j, w_{t+j})$
        
        $wt+k^=wt−η^1k∑j<k▽L(Bj,wt+j)\hat{w_{t+k}} = w_t - \hat{\eta} \frac{1}{k} \sum_{j<k} \bigtriangledown L (B_j, w_{t+j})$
      - 본 연구에서는 $η^=kη\hat{\eta} = k\eta$ 로 설정하고 worker 수 k를 변경할 때 worker당 샘플 크기 n을 일정하게 유지함. 그리고 다양한 데이터셋과 네트워크에서 잘 동작한 n = 32를 사용
      - 만약 n이 조정된다면, 이는 BN의 하이퍼파라미터로 간주되어야 하며 분산 훈련이 아님.
      - 또한 BN 통계는 통신을 줄이기 위해서만이 아니라 최적화되는 기본 손실 함수를 동일하게 유지하기 위해서도 모든 worker를 대상으로 계산하면 안됨

분산 구현 오류들은 하이퍼파라미터의 정의를 변경하여 훈련되는 모델의 오차가 예상보다 높아지게 할 수 있으며, 이러한 문제들은 발견하기 어려울 수 있습니다. 아래의 주장들은 명확하지만, 기본 solver를 충실히 구현하기 위해 명시적으로 고려하는 것이 중요

Weight decay

손실 함수의 L2 정규화 항의 기울기의 결과

per-sample loss

$\frac{\lambda }{2}||w||^2 + \varepsilon (x, w)$
- $λ2∣∣w∣∣2\frac{\lambda}{2} ||w||^2$ : 가중치에 대한 샘플 독립적인 L2 정규화
- $ε(x,w)\varepsilon (x, w)$ : 크로스 엔트로피의 샘플 종속적인 항(sample-dependent term)

SGD update

wt+1=wt−ηλwt−η1n∑x∈B▽ε(x,wt)w_{t+1} = w_t - \eta \lambda w_t - \eta\frac{1}{n}\sum_{x \in B} \bigtriangledown \varepsilon (x, w_t)

실제로는 일반적으로 역전파를 통해 샘플 종속적인 항 $∑▽ε(x,wt)\sum \bigtriangledown \varepsilon (x, w_t)$ 만 계산됨

가중치 감쇠 항 $λwt\lambda w_t$ 는 별도로 계산되어 $ε(x,wt)\varepsilon (x, w_t)$ 에 기여한 그레디언트에 추가됨

가중치 감쇠 항이 없는 경우, 학습률을 조절하는 다양한 방법이 있음
- $ε(x,wt)\varepsilon (x, w_t)$ 항을 조절하는 방법을 포함
- 그러나 이는 항상 성립하지 않음.
Remark 1: Scaling the cross-entropy loss is not equivalent to scaling the learning rate

Momentum correction

Momentum SGD
- 바닐라 SGD에 대한 흔히 채택되는 modification중 하나
- 모멘텀 SGD의 참조 구현
  
  $ut+1=mut+1n▽l(x,wt)−−−−(9)u_{t+1} = mu_t + \frac{1}{n} \bigtriangledown l (x, w_t)----(9)$
  
  $wt+1=wt−ηut+1−−−−(9)w_{t+1} = w_t - \eta u_{t+1}----(9)$
  - m : momentum decay factor
  - u : update tensor
- 인기 있는 변형
  - 학습률 η를 업데이트 텐서에 흡수하는 것
    
    $vt+1=mut+η1n∑x∈B▽l(x,wt)−−−−(10)v_{t+1} = mu_t + \eta \frac{1}{n}\sum_{x \in B} \bigtriangledown l (x, w_t)----(10)$
    
    $w_{t+1} = w_t - v_{t+1}----(10)$
  - 고정된 $η\eta$ 에 대해 2가지가 동일함
  - u가 그레이디언트에만 의존하고 $η\eta$ 와는 독립적인 반면, v는 $η\eta$ 와 얽혀 있다는 점에 주목해야 함.
  - $η\eta$ 가 변경됬을 때 (9)의 참조변형과 동일성을 유지되기 위해 v의 업데이트는 다음과 같아져야 함
    
    $vt+1=mηt+1ηt+ηt+11n∑▽l(x,wt)v_{t+1} = m \frac{\eta_{t+1}}{\eta_t} + \eta_{t+1}\frac{1}{n}\sum \bigtriangledown l (x, w_t)$
    - $ηt+1ηt\frac{\eta_{t+1}}{\eta_{t}}$ : 모멘텀 보정(momentum correction)
    - $ηt+1>>ηt\eta_{t+1} >> \eta_t$ 인 경우 훈련을 안정화시키는 데 중요함.
    ⇒ 그렇지 않으면 history 항 $v_t$ 가 너무 작아져서 불안정성을 초래함( $ηt+1<ηt\eta_{t+1} < \eta_t$ 일 때 모멘텀 보정은 덜 중요함)Remark 2: Apply momentum correction after changing learning rate if using(10)

Gradient aggregation

k 개의 worker마다 각각 크기가 n인 미니배치를 가지고 있는 경우, (4)에 따라 그레이디언트 집계는 kn개의 전체 예제 세트에 대해 다음 식이 수행되어야 함.

1kn∑j∑x∈Bjl(x,wt)\frac{1}{kn}\sum_j\sum_{x \in B_j}l(x, w_t)

손실 레이어
- 일반적으로 자체의 로컬 입력에 대한 평균 손실을 계산하는 방식으로 구현
- 각 작업자의 손실 $∑l(x,wt)/n\sum l(x, w_t)/n$ 을 계산하는 것과 동일함

상기 내용을 고려하면 올바른 집계는 누락된 1/k요소를 복원하기 위해 k개의 그레디언트를 평균화해야함.
- 그러나, allreduce [11]와 같은 표준 통신 원시는 평균이 아닌 합을 수행

따라서 1/k스케일링을 손실에 흡수하는 것이 더 효율적이며, 이 경우에는 손실에 대한 입력의 그레이디언트만 스케일링하면 되므로 전체 그레이디언트 벡터를 스케일링할 필요가 없음.Remark 3: Normalize the per-worker loss by total minibatch size kn, not per-worker size n

또한 ‘k를 취소’하기위해 $η^=η\hat{\eta} = \eta$ 설정하고 손실을 1/n으로 정규화하는 것은 잘못될 수 있음
- 이는 잘못된 가중치 감쇠로 이어짐 (← remark 1 참조)

Data shuffling

SGD는 일반적으로 데이터를 복원추출로 샘플링하는 프로세스로 분석
- 실제로 일반적인 SGD 구현에서는 각 SGD 에포크마다 훈련 세트를 무작위로 섞어주는 것이 흔하며, 이는 더 나은 결과를 얻을 수있음.
- 무작위 셔플링을 사용하는 기준선(K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016)과 공정한 비교를 제공하기 위해, k worker에 의해 수행된 한 에포크의 샘플은 훈련 세트의 단일 일관된 무작위 섞기에서 가져오도록 함.
  - 이를 달성하기 위해 각 에포크마다 k 부분으로 나뉘어진 무작위 섞기를 사용하며, 각 부분은 k worker 중 하나에 의해 처리
  - 여러 worker에서 무작위 셔플링을 올바르게 구현하지 않으면 뚜렷한 다른 동작을 유발 가능함⇒결과와 결론을 오염

Remark 4: Use a single random shuffling of the training data (per epoch) that is divided amongst all k workers

하나의 Big Basin 서버에서의 8개의 GPU를 넘어서 규모를 확장하려면 , 그레이디언트 집계는 네트워크 상의 여러 서버에 걸쳐 이뤄져야 함. 거의 완벽한 선형 확장을 허용하기 위해서는 집계가 역전파와 병렬로 수행되어야 합니다. 이는 층 간에 그레이디언트 간에 데이터 의존성이 없기 때문에 가능합니다. 따라서 한 층의 그레이디언트가 계산되면 즉시 해당 층에 대한 그레이디언트가 작업자들 간에 집계되고, 동시에 다음 층에 대한 그레이디언트 계산이 계속됩니다. 다음에서는 이에 대한 자세한 내용을 설명하겠습니다.

4.1 Gradient Aggregation

각 그레이디언트에 대해 집계는 MPI 집합 연산(MPI Allreduce)[11]와 유사한 allreduce 작업을 사용하여 수행됩니다. Allreduce가 시작되기 전에 각 GPU는 로컬로 계산된 그레이디언트를 갖고 있고, allreduce가 완료되면 각 GPU는 모든 k개의 그레이디언트의 합을 갖습니다. 매개변수의 수가 증가하고 GPU의 계산 성능이 향상됨에 따라 집계 비용을 backprop 단계에서 숨기기가 더 어려워집니다. 이러한 효과를 극복하기 위한 훈련 기술은 이 작업의 범위를 벗어납니다 (예: 양자화된 그레이디언트(quantized gradient) [18], 블록-모멘텀 SGD [6]). 그러나 이 작업의 규모에서는 최적화된 allreduce 구현을 사용하여 거의 선형적인 SGD 스케일링을 달성할 수 있어, 집단 통신이 병목이 되지 않았습니다.

allreduce 구현 3단계 : 서버 내부 및 서버 간 통신을 위해서.
💡
1. 서버 내의 8개 GPU에서 각각의 버퍼가 각 서버에 대해 하나의 단일 버퍼로 합산
1. 결과 버퍼는 모든 서버 간에 공유되어 합산
1. 결과가 각 GPU로 브로드캐스트됨
- 서버 간 allreduce를 위해 대역폭 제한 시나리오에 대한 두 가지 최고의 알고리즘을 구현
  - 재귀적인 반감 및 배가 알고리즘
    - 2 log2(p) 통신 단계로 이루어짐
    - reduce-scatter 집합에 이어 allgather로 이루어져 있음
      - process
        
        서버는 쌍으로 통신하며 (랭크 0은 1과, 2는 3과 등등), 입력 버퍼의 다른 반쪽에 대해 보내고 받음 (랭크 0은 버퍼의 두 번째 절반을 1에게 보내고 1로부터 버퍼의 첫 번째 절반을 받음)
        
        다음 단계로 진행하기 전에 수신된 데이터에 대한 축소가 수행되고, 다음 단계에서는 목적지 랭크까지의 거리가 두 배로 늘어나면서 보내고 받은 데이터가 절반으로 줄어들음
        
        reduce-scatter 단계가 완료되면 각 서버에는 최종 축소된 벡터의 일부가 있음.
        
        allgather 단계
        
        reduce-scatter에서의 통신 패턴을 역으로 추적하여 최종 축소된 벡터의 일부를 간단히 연결
        
        각 서버에서 reduce-scatter에서 보내고 있던 버퍼의 일부가 allgather에서 수신되고, 받던 부분은 이제 보내짐
        
        서버의 수가 2의 거듭제곱이 아닌 경우에 대응하기 위해 이진 블록 알고리즘 [30]을 사용
        
        이진 블록 알고리즘 : 서버가 2의 거듭제곱 블록으로 분할되고 두 개의 추가 통신 단계가 사용되는 반감/배가 알고리즘의 일반화된 버전
        
        아는 블록 내부 reduce-scatter 후와 블록 내부 allgather 전에 각각 한 번 사용됨
        
        거듭제곱이 아닌 경우 일부 부하 불균형이 거듭제곱과 비교하여 발생하지만, 현 논문에서는 성능저하를 관찰하지 못함.
  - 버킷 알고리즘 (링 알고리즘이라고도 함)
    - 2(p−1) 단계로 이루어짐.
  → 양쪽 모두 각 서버가 2(p−1)b 바이트의 데이터를 보내고 받는데, 여기서 b는 버퍼 크기(바이트)이고 p는 서버의 수
  - 반감/배가 알고리즘이 대개 latency-limited 시나리오에서 더 빠르게 동작(즉, 작은 버퍼 크기 및/또는 큰 서버 수의 경우 ,약 3).

4.2 software

통신 수집을 위한 allreduce 알고리즘은 Gloo 깃허브에 있음.
- 병렬로 여러 allreduce 인스턴스를 실행하기 위해 추가 동기화가 필요하지 않는 여러 통신 context를 지원
- 로컬 리덕션 및 브로드캐스트 (단계 (1) 및 (3)로 설명됨)은 가능한 경우 서버 간 allreduce와 파이프라인화됨

Caffe2
- 훈련 반복을 나타내는 컴퓨트 그래프의 멀티스레드 실행을 지원
- 서브그래프 간에 데이터 의존성이 없는 경우 여러 스레드가 그 서브그래프를 병렬로 실행가능
- 이를 backprop에 적용하면 로컬 그레이디언트가 순차적으로 계산될 수 있고, allreduce나 가중치 업데이트와 관련이 없음
  - 이는 backprop 중에 실행 가능한 서브그래프 집합이 실행 가능한 서브그래프를 실행하는 속도보다 더 빨리 증가할 수 있음을 의미
- allreduce를 포함하는 서브그래프의 경우 모든 서버가 실행 가능한 서브그래프 집합에서 동일한 서브그래프를 실행하도록 선택해야 함
  - 그렇지 않으면 서버가 서로 교차하지 않는 서브그래프 집합을 실행하려고 할 때 분산 데드락이 발생할 위험이 있음.
  - allreduce가 집합 연산이기 때문에 서버는 타임아웃 될거임
- 올바른 실행을 보장하기 위해 이러한 서브그래프에 대한 부분적인 순서를 부여해야함.
  - 순환적인 제어 입력을 사용하여 구현됨
  - n번째 allreduce의 완료가 (n + c)번째 allreduce의 실행을 블록 해제하게 됨
  - 여기서 c는 최대 동시 allreduce 실행 횟수
    - 이 숫자는 전체 컴퓨트 그래프를 실행하는 데 사용되는 스레드 수보다 낮게 선택해야 함.

[DL] Gradient Vanishing / Exploding (1)	2024.02.14
시계열 데이터셋 저장소 정리 (0)	2024.02.09
[ML] DTW (Dynamic Time Warping) (0)	2024.02.03
[ML] 배치 정규화(Batch Normalization) (0)	2024.01.31
지도학습 : 회귀_1차원 모델(선형기저함수_최적화) (3) (0)	2023.06.08

EunGyeongKim

EunGyeongKim

[논문리서치] Accurate, Large Minibatch SGD:Training ImageNet in 1 Hour 본문

[논문리서치] Accurate, Large Minibatch SGD:Training ImageNet in 1 Hour

This paper’s goal

큰 미니배치 사이즈를 다루기 위해 필요한 것

2.1 Learning rates for Large Minibatches

2.2 warmup

2.3 Batch Normalization with large minibatches

Weight decay

Momentum correction

Gradient aggregation

Data shuffling

4.1 Gradient Aggregation

4.2 software

'ML & DL' 카테고리의 다른 글

티스토리툴바