본문 바로가기
딥러닝 머신러닝 데이터 분석/BoostCampAITech

[CV] Further topics of segmentation

by SteadyForDeep 2021. 9. 19.
반응형

더 진보된 segmentation, Instance segmentation

Mask R-CNN[he et al., ICCV 2017]

- RoI Align을 제안함

- Faster R-CNN + Mask branch(새롭게 제안)

- 원하는 class의 수 만큼 channel을 가지는 마스크를 한번에 추론

 

YOLACT[Bolya et al., ICCV 2019]

- Protonet을 통한 프로토타입, 마스크를 만들 수 있는 후보군을 추론

- 적은 수의 프로토타입의 선형결합으로 여러가지 디텍션을 만들어 내는 효과적인 구조

 

YolactEdge

- Feature pyramid에서 발생하는 이전 frame의 feature map을 이후 frame의 feature map으로 전달

 

 

더 진보된 segmentation, Panoptic segmentation

UPSNet[Xiong et al., CVPR 2019]

- FPN structure (Feature Pyramid Network) -> task heads -> Panoptic Head -> Panoptic logits

 

VPSNet[Kim et al., CVPR 2020]

- Panoptic segmentation을 영상으로 확장

- 영상의 시간 순서에 대해서 feature가 어디로 이동하는지 tracking

- 이전 feature 를 사용함으로 인식률을 높임

- bbox mask sementic 각각의 head를 사용

- 시간이 지나도 동일한 identity를 유지

 

Landmark localization

Facial landmark location, human pose estimation과 같은 테스크에서 사용

미리 선정된 landmark(눈썹, 입꼬리, 손끝, 발목 등등)에 대한 estimation 사용

 

Coordination regression vs heatmap classification [Jin et al., arXive 2020],[Wang et al., ICCV 2019]

- 점의 위치를 regression으로 예측하면 잘 안됨 -> heatmap 을 추정하는 문제로 바꾸면 성능 향상

-> landmark로 지정된 픽셀을 2D Gaussian의 mean으로 설정

 

Hourglass network[Newell et al., ECCV 2016]

- hourglass를 여러개 쌓은 형태 -> hourglass는 receptive field를 키워주는 역할

-> Unet과는 다르게 skip connection을 Conv and add 로 진행

 

DensePose[Guler et al., CVPR 2018]

- UV map : 표준 3D map의 형태를 u-v 평면에 펼쳐서 mapping 하는 방법

- color coding을 이용한 표현에 탁월함

- Faster R-CNN을 3D로 표현한 모델 구조라고 볼 수 있음

 

RetinaFace[Deng et al., CVPR 2020]

- 피라미드 구조를 통해서 다양한 테스크의 branch를 학습

- backbone 네트워크를 다양한 기능에 대해서 강력하게 훈련하는 효과가 있음

- backbone 네트워크에 본인이 원하는 head를 달아주는 형태로 학습이 가능함

 

CornerNet[Law et al., ECCV 2018]

- Top-left, Bottom-right 코너를 학습

- Corner를 통해 찾아낸 개체의 embedding을 같이 학습하여 학습을 안정화

 

CenterNet[Duan et al., ICCV 2019], [Zhou et al., arXiv 2019]

- Center point에서 Width, Height를 추론하여 bbox 를 찾음

 

반응형

댓글