본문 바로가기
딥러닝 머신러닝 데이터 분석/BoostCampAITech

[LV.3] 경량화

by SteadyForDeep 2021. 11. 30.
반응형

# CV경량화 강의 메모는 생략되었음

CV vs NLP

NLP의 경우 CV에 비해 모델 구조의 다양성이 떨어짐, 거대한 transformer 구조가 대부분

-> Knowledge distilation을 사용하기 유리

-> 학계와 현업간의 이식성이 높음

 

BERT profiling

Ganesh, Prakhar, et al.,2021에 따르면

- 일반적으로 CPU의 연산속도가 더 빠름

- 고등한 computation 이 많은 모듈일 수록 이 차이가 더 극명함 (matmul, softmax 등)

 

Structured Pruning vs Unstructured Pruning

Structured

Michel et al., 2019에 의하면

- MHA를 위해서 꼭 Multi-Head가 필요한가? -> 그렇지만은 않다. 실험적 검증

- 그러면 여러 layer에서 동시다발적으로 MH를 줄여도 되는가? -> Iterative Pruning of Attention Heads 제안

 

Unstructured

Sanh et al., 2020에 의하면

- Fine tuning 후 weight의 크기를 보고 평가하던 기존의 방법, Magnitude Pruning

- 그러지 말고 tuning 과정 중에 어떤 방향으로 변하는지 관찰해서 pruning 하자 -> Movement Pruning 제안

- Movement가 양의 발산 방향이면 중요도가 낮은 parameter가 된다.

 

Weight Factorization & Weight sharing

Lan et al., 2019 논문에 의하면 (ALBERT 논문)

- Cross-layer parameter sharing -> stabilizing network

- MLM, NSP, SOP task간의 교환

- WordPiece Embedding 과 Hidden layer 의 uncoupling

반응형

댓글