# CV경량화 강의 메모는 생략되었음
CV vs NLP
NLP의 경우 CV에 비해 모델 구조의 다양성이 떨어짐, 거대한 transformer 구조가 대부분
-> Knowledge distilation을 사용하기 유리
-> 학계와 현업간의 이식성이 높음
BERT profiling
Ganesh, Prakhar, et al.,2021에 따르면
- 일반적으로 CPU의 연산속도가 더 빠름
- 고등한 computation 이 많은 모듈일 수록 이 차이가 더 극명함 (matmul, softmax 등)
Structured Pruning vs Unstructured Pruning
Structured
Michel et al., 2019에 의하면
- MHA를 위해서 꼭 Multi-Head가 필요한가? -> 그렇지만은 않다. 실험적 검증
- 그러면 여러 layer에서 동시다발적으로 MH를 줄여도 되는가? -> Iterative Pruning of Attention Heads 제안
Unstructured
Sanh et al., 2020에 의하면
- Fine tuning 후 weight의 크기를 보고 평가하던 기존의 방법, Magnitude Pruning
- 그러지 말고 tuning 과정 중에 어떤 방향으로 변하는지 관찰해서 pruning 하자 -> Movement Pruning 제안
- Movement가 양의 발산 방향이면 중요도가 낮은 parameter가 된다.
Weight Factorization & Weight sharing
Lan et al., 2019 논문에 의하면 (ALBERT 논문)
- Cross-layer parameter sharing -> stabilizing network
- MLM, NSP, SOP task간의 교환
- WordPiece Embedding 과 Hidden layer 의 uncoupling
'딥러닝 머신러닝 데이터 분석 > BoostCampAITech' 카테고리의 다른 글
[LV.3 모델 최적화] #5 Augmentation (0) | 2021.11.24 |
---|---|
[LV3 모델최적화] #2, #3 (0) | 2021.11.24 |
[Lv2 P-Stage] 2 stage Detectors (0) | 2021.10.06 |
[Lv2 P-Stage] Object Detection Overview (0) | 2021.09.27 |
[CV] Further topics of segmentation (0) | 2021.09.19 |
댓글