본문 바로가기

전체 글

(13)
LLaVA 논문 리뷰 왜 LLaVA ? Large Language and Vision Assistant 언어와 시각 정보 활용해서 사람의 명령(Instruction)에 따라 행동해라!!! 1 Introduction 사람은 이미지와 언어로 세상을 인식이미지: 공간,비주얼적인 디테일 언어: 추론에 일반적이고 유연한 인터페이스 제공최근 ai 는 독립적으로 시행제한된 상호작용, poor adaptability가 문제 Large Language Models (LLMs) 등장으로 universal interface가 가능해졌지만Importantly, this line of work is text-only. 텍스트만 한다는 한계있다 그래서 이 논문은 general-purpose visual assistant를 구축하는 것을 목표..
BLIP-2 논문 리뷰 Bootstrapping Language–Image Pre-trainingBootstrapping 스스로 부츠 다시 신는 것처럼 스스로 모델 향상위해 어떤 일을 했다!!!그게 뭔데??Using frozen pre-trained models계산량 줄이고 안정적Q-Former이미지와 텍스트 연결하는 다리!!! 1 Introduction Vision-language pre-training (VLP) 연구 꾸준히 발전하고 있다 하지만 high computation cost를 발생하는 문제가 있음 off-the-shelf pre-trained된 비전, 언어 모델 사용 → 이것이 부트스트래핑→ 효율적인 계산할 것임 off-the-shelf의 의미If a product can be bought off the ..
BLIP 논문 리뷰 BLIP Bootstrapping Language-Image Pre-training for Unified Vision-Language Understanding and Generation 부트스트랩이란?신발에 있는 끈 같은 것영어에서도 pull oneself up by the bootstraps 라는 표현은 도움 없이 스스로 상황을 개선하는 것(혼자 부트스트랩 올려 신발 신기!!!)여기서는 모델 자체가 도움 없이 캡션을 만드는 것을 부트스트랩핑 한다고 한 것! 요약기존 비전 언어 모델은 완전 무결한 데이터가 필요했음 잡음 많은 데이터에도 강건한 모델 만들고 싶다... BLIP = Bootstrapping + Vision-Language Pre-training 1. Image-Text Contrasti..
CLIP 논문 리뷰 이미지를 받아서 텍스트 내보내는 모델! CLIP = Contrastive Language–Image Pretraining쌍을 맞추어 이미지 텍스트를 한번에 사전 학습!!! 그래서 CLIP 1. Introduction and Motivating Work 1. NLP의 혁명적 변화raw text에서 직접 학습하는 pre-training 방법 --> NLP 혁명적으로 변화자기회귀(autoregressive)나 마스크드 언어 모델링 같은 task-agnostic( 특정 태스크에 구애받지 않는 ) 목표함수 --> compute, 모델 용량, 데이터 규모에서 여러 차수만큼 확장 --> 성능 향상 2. "Text-to-text" 패러다임의 중요성"text-to-text" 방식 핵심이를 통해 task-agnostic..
ViT 리뷰 ViT: Vision Transformer트랜스포머를 이미지Vision에 적용해보자!! 1 INTRODUCTION 트랜스포머의 셀프 어텐션 구조는 NLP 분야에서 높은 성과를 냄 With the models and datasets growing, there is still no sign of saturating performance. 컴퓨터 비전에서는 여전히 합성곱 위주의 계산이 지배적(dominant) NLP 분야에서 영향을 받아 셀프 어텐션 구조를 적용해보고자 함 그런데 막상 해봤는데 ResNet이 성과가 더 좋았음Therefore, in large-scale image recognition, classic ResNet like architectures are still state of the a..
BART 논문 리뷰 BART(Bidirectional and Auto-Regressive Transformers)인코더입력 이해Bidirectional (양방향)디코더문장 생성Auto-Regressive (자동회귀적)Transformer 기반 모델 1 IntroductionSelf-Supervised Learning의 진화masked language modeling(MLM) 기반의 모델(일부 단어를 가리고 복원하는 방식)특정 작업(span prediction, generation 등)에만 강점을 보여 범용성이 떨어짐BART의 제안Bidirectional + Auto-Regressive Transformer의 조합BERT의 인코더 + GPT의 디코더를 결합한 구조(sequence-to-sequence (seq2seq) 모델)..
Mask R-CNN 논문 리뷰 Mask R-CNN Mask: 픽셀 단위(segmentation mask)의 객체 영역을 예측R-CNN: Region-based Convolutional Neural Network, 즉 객체의 위치(Region)를 먼저 찾고 그 후 분류하는 구조 1. Introduction 문제의식객체 탐지(object detection)과 의미적 분할(semantic segmentation)은 Fast/Faster R-CNN, FCN 덕분에 급속히 발전함--> "인스턴스 세분화(instance segmentation)"는 이 둘을 결합해야 하므로 더 어려운 문제Object Detection: 물체 위치와 클래스 → 바운딩 박스 기반Semantic Segmentation: 픽셀별 분류 → 인스턴스 구분 없이 범주별 분할..
VAE 리뷰 VAE Auto-Encoding Variational Bayes 전반적 설명이미지 압축 그리고 다시 생성하는 것암호 인코딩 후 디코딩하는 과정이들은 음식 얼리고(인코딩) 다시 해동하기 위해 전자레인지에 돌리는 것(디코딩)과 유사이때, 전자레인지를 통해 완벽하게 "똑같은" 음식을 해동해 먹는 것은 불가 일종의 노이즈가 들어가기 마련이다. p(z∣x) --> z --> p(x∣z)우리가 원하는 과정은 이것이다. 어떤 데이터 x를 넣고 잠재변수 z가 생긴다. (인코딩 - 냉동 )그리고 그 잠재변수를 통해 다시 x를 뽑아내고 싶은 것이다. (디코딩 - 해동)그런데 당장 사후분포 p(x) 계산은 매우 어렵다 (복잡한 경우가 다수)그래서 근사 분포를 이용해 구할 것이다 그런데 이 과정에서 역전파 통해 가중치 ..
EfficientNet 리뷰 EfficientNet 이라고 불리는 이유?너비(Width), 깊이(Depth), 해상도(Resolution)를고정된 비율로 동시에 확장하는 효율적인 Compound Scaling을 제안했기에 FLOPS는 Floating Point Operations Per Second의 약자모델이 1초에 수행할 수 있는 부동소수점 연산의 수 1. Introduction 배경: CNN 성능 향상을 위한 스케일링일반적 전략: CNN 모델 크기 확장 → 더 높은 정확도 달성문제점: 모델 확장의 효과적인 원칙 부재제안된 방법: Compound Scaling (복합 스케일링)핵심 아이디어: 깊이(d), 너비(w), 해상도(r) 동시 확장 (고정 비율)예시 (계산량 2N 배 증가 시):깊이: 루트 N​ 배너비: N 배해상도:..
MobileNet 리뷰 모바일넷?? 모바일 기기에서 잘 돌아가게 만든 네트워크  1. 서론 (Introduction)CNN은 2012년 ImageNet 대회 이후 널리 사용일반적으로 더 깊고 복잡한 네트워크가 정확도를 높이지만, 모델 크기와 속도는 비효율적일 수 있음.모바일 및 임베디드 환경에서는 실시간 처리가 필요하므로, 계산량이 적고 효율적인 모델이 필수적.이를 위해 MobileNet을 설계하고, 너비 비율(width multiplier) 및 해상도 비율(resolution multiplier)을 도입하여 모델 경량화.2. 이전 연구 (Prior Work)📌 작은 신경망 연구의 발전최근에는 작고 효율적인 신경망 구축 연구 활발이러한 연구는 크게 두 가지 접근 방식으로 나눌 수 있음: 사전 학습된 네트워크 압축 - 먼저 큰..