본문 바로가기 메뉴 바로가기

딥러닝 & 컴퓨터 비전

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

딥러닝 & 컴퓨터 비전

검색하기 폼
  • 분류 전체보기 (11)
    • Vision Transformer (11)
      • ReID (4)
      • 기타 (7)
    • Stock (0)
  • 방명록

전체 글 (11)
[논문 리뷰] Body Part-Based Representation Learning for Occluded PersonRe-Identification

Motivation Person Re-identification (ReID)는 주어진 gallery 이미지 중 query와 같은 ID의 사람이 찍힌 이미지를 찾는 task입니다. 이 때 query와 gallery 이미지들 간의 feature distance를 구해 거리가 가까울수록 같은 ID일 확률이 높다고 여깁니다. 초기에는 global feature만 사용해 비교하는 방식을 사용했는데, 이는 다음과 같은 문제점들이 있습니다. 만약 장애물이나 다른 사람이 query ID에 해당하는 사람을 가리게 된다면 굉장히 큰 타격을 받습니다. (Global feature가 obstacle의 feature도 포함해 큰 왜곡이 생기기 때문) 앞선 내용과 비슷한 맥락으로 두 sample이 fully visible할 때만..

Vision Transformer/ReID 2023. 5. 2. 21:52
[논문 리뷰] Beyond Appearance: a Semantic Controllable Self-Supervised Learning Framework for Human-Centric Visual Tasks

이 논문은 사람을 대상으로 하는 비전 태스크들에 적합한 Self-supervised backbone을 소개합니다. 다양한 태스크에 모두 적용할 수 있도록 설계되어서, Semantic한 정보가 필요한 human parsing task 및 Apperance information이 필요한 ReID 등의 다양한 task에 모두 적용할 수 있는 backbone의 설계를 목적으로 합니다. 사람을 대상으로 하는 task의 backbone으로 ImageNet Pretrained backbone을 사용하던 시기를 지나, 적절한 방법을 통해 LUPerson 등의 사람 dataset으로 SSL을 진행하는 것이 주류가 되고 있습니다. 그러나 기존의 방법 (Ex : TransReID-SSL)에서는 Semantic 정보가 결여된..

Vision Transformer/ReID 2023. 4. 26. 14:27
[논문 리뷰] PASS: Part-Aware Self-Supervised Pre-Training for Person Re-Identification

Abstract - TransReID-SSL 등의 연구 등을 통해 ImageNet Pretrained model보다 unlabeld person data (LUPerson 등)으로 self-supervised pretrained된 model을 사용하는 것이 ReID 측면에서 유리하다는 것이 밝혀졌음. - 그러나 ReID에 SSL을 적용한 이전 연구들은 모두 classification task에 사용된 SSL method를 그대로 적용하였다는 단점이 있고, 이 방법들은 local view와 global view의 출력을 같게 만드는 방향으로 학습하기 때문에 많은 local detail을 잃게 됨. ex) DINO에서는 global feature와 cropped local feature간 Cross entr..

Vision Transformer/ReID 2023. 4. 19. 15:52
[논문 리뷰] Non-local Neural Networks

Abstract CNN과 RNN 구조는 한 번의 연산 과정에서 local neighborhood만을 고려하는 framework입니다. 이에 따른 long-range dependency 문제가 발생합니다. 따라서 저자는 이를 해결하기 위해서 non-local means denoising 기법을 응용한 방법을 딥네트워크에 적용합니다. Non-local operation은 특정 지역에서의 response를 다른 모든 지점 값들의 weighted sum으로 표현하는데요. 이를 통해 Long-range dependency 문제를 해결하고 다양한 task에 접목하고자 합니다. Introduction -Non local means for denoising 우선 이 논문의 기반 idea가 되는 Non local mea..

Vision Transformer/기타 2023. 3. 22. 14:31
[논문 리뷰] Transformer in Transformer

Abstract / Introduction 이 논문에서는 Vision transformer의 patch dividing 과정을 문제삼고 있습니다. 기존 ViT에서는 image를 16x16 size patch로 nonoverlap하게 나눕니다. 그러나 실제 image들은 이렇게 간단한 방법으로 patch화 하기에는 매우 많은 detail과 complexity를 가지고 있습니다. 따라서 기존의 dividing 방법은 각기 다른 위치와 크기를 가지는 객체들의 feature를 잘 뽑아낼만큼 fine하지 않다는 거죠. 그래서 이 논문에서는 그림 1과 같이 TNT (Transformer iN Transformer) 라는 model을 제안합니다. 기존 transformer 구조를 해치지 않으면서도 각 patch를 더..

Vision Transformer/기타 2022. 9. 14. 16:02
[논문 리뷰] Tokens-to-Token ViT : Training Vision Transformers from Scratch on ImageNet

Abstract / Introduction ViT의 출현 이후 image classification을 비롯한 많은 vision task 분야에서 SOTA를 달성하고 있습니다. 과거에 CNN이 지배하던 vision 분야에서 ViT가 점점 더 우위를 차지하고 있는데요. 특히 large & big dataset에 대해서 좋은 성능을 보이고 있습니다. 그러나 반대로 midsize 이하의 dataset 혹은 data scarce regime에서는 약한 모습을 보이는데요. 보통 이를 약한 inductive bias와 많은 parameter 때문이라고 분석합니다. 유사하게 이 논문에서도 이유를 다음과 같이 분석하네요. 1) Simple tokenization 기존 ViT에서는 patch 단위로 image를 나눌 때 ..

Vision Transformer/기타 2022. 9. 8. 17:38
[논문 리뷰] Conditional Positionial Encodings for vision Transformers

※ 이 리뷰는 단순 논문 번역이 아닌 저의 주관적인 해석을 통한 리뷰임을 밝힙니다. 따라서 논문에 명시되지 않은 주관적 해석이 들어가 있을 수 있습니다. Abstract / Introduction 이 논문은 vision transformer의 positional encoding 방법에 대해 새로운 method를 제시합니다. Positional embedding은 transformer에서 input에 위치 정보를 추가해주기 위해 사용되는데요. 먼저 기존에 사용하던 positional encoding strategy (APE,RPE) 를 확인하고 가겠습니다. -Absolute Positional Encoding (APE) Sinusoidal function 혹은 학습된 learnable parameter를 ..

Vision Transformer/기타 2022. 9. 7. 16:22
[논문 리뷰] UniFormer: Unifying Convolution andSelf-attention for Visual Recognition

※ 이 리뷰는 단순 논문 번역이 아닌 저의 주관적인 해석을 통한 리뷰임을 밝힙니다. 따라서 논문에 명시되지 않은 내용에 대한 주관적 해석이 들어가 있을 수 있습니다. Deep learning을 통한 Vision task 처리 방법으로 CNN과 ViT라는 두가지의 dominant framework가 존재합니다. 각각의 방법에 장단점이 존재하기 때문에 서로를 보완하고자 두 framework를 혼용하는 방법들이 많이 제시되었습니다. 이 논문 역시 CNN과 self attention mechanism의 결합을 통해 몇몇 문제들을 해결하고자 합니다. Abstract / Introduction -CNN의 문제점 작은 receptive field를 갖기 때문에 local redundancy 문제는 해결할 수 있으나,..

Vision Transformer/기타 2022. 9. 5. 17:42
[논문 리뷰] Transformer Meets Part Model: Adaptive Part Division for Person Re-Identification

Abstract / Introduction Person ReID task에서 가장 중요한 것 중 하나는 part model을 구축하는 것입니다. 예를 들면 A와 B가 같은 사람인지 비교할 때 팔은 팔끼리, 다리는 다리끼리 비교하는 것이 당연히 더욱 정확한 비교 방법이 되겠죠. 그래서 이렇게 부위별 비교를 위한 방법에 대해 많은 연구가 이루어져 왔습니다. -Manually designed masks 가장 간단하게 생각할 수 있는 방법은 이미지를 일정한 간격으로 잘라서 동일 구역끼리 비교하는 방법입니다. 그림 1에서처럼 입력 이미지와 관계 없이 일정한 간격으로 잘라내 비교합니다. 그러나 이럴 경우 몇몇 구역에서는 배경이나 노이즈가 차지하는 비율이 매우 클것이고, 또한 그림 1에서의 예시처럼 bounding ..

Vision Transformer/ReID 2022. 9. 1. 14:34
[논문 리뷰] Beyond Self-attention: External Attention usingTwo Linear Layers for Visual Tasks

Abstract / Introduction Self attention mechanism을 이용하는 ViT의 발전은 vision task에 매우 큰 영향을 끼쳤습니다. 특히 CNN에서 문제가 되었던 long-range dependency 문제를 해결할 수 있었습니다. 이를 통해 image의 representation feature에 대한 학습 능력이 크게 올라갔습니다. 그러나 이런 self attention mechanism도 단점이 있고, 다음 두 가지를 뽑을 수 있습니다. 1. Patch 개수에 quadratic한 complexity 2. Input specific하게 동작하기 때문에 입력 image 외 다른 sample의 정보를 반영하기 어려움 특히 두 번째 단점을 좀 더 풀어서 설명해보겠습니다. V..

Vision Transformer/기타 2022. 8. 31. 14:57
이전 1 2 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • Vision transformer #ViT #transformer #computer vision #deep learning #컴퓨터비전 #딥러닝 #트랜스포머 #비전트랜스포머
  • ReID #컴퓨터비전 #딥러닝 #머신러닝 #Person Re-identification #Re-identification
  • Transformer Meets Part Model #ViT #Vision transformer #컴퓨터비전 #논문 리뷰 #딥러닝
  • ReID #ViT #Transformer #Person re-identification #Human parsing #SSl #Self supervised learning
  • Vision transformer #컴퓨터비전 #딥러닝 #ViT #transformer #T2T #tokens to token ViT #논문리뷰
  • Uniformer #ViT #Vision transformer #비전트랜스포머 #컴퓨터비전 #딥러닝 #transformer #논문리뷰
  • AdaViT
  • CPE #컴퓨터비전 #딥러닝 #머신러닝 #Transformer #Vision transformer #ViT #Positional encoding
  • Beyond Self-attention
more
«   2025/12   »
일 월 화 수 목 금 토
1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바