728x90
반응형

 

[개념]  데이터 자체에서 스스로 레이블을 생성하여 학습에 이용하는 방법을 의미

다량의 Label이 없는 Raw Data로부터 데이터 부분들의 관계를 통해 Label을 자동으로 생성하여 지도학습에 이용하는 비지도 학습 기법
 
[그림] Pretext task에서 나온 pre-training 되어진 network 를 궁극적으로 사용자가 풀고자 하는 문제에 transfer learning 하는 방법
 
[배경]  AI를 적용하기 위한 학습을 위해서는 양질의 데이터와 목적 태스크를 위한 레이블이 필요하다. 그러나 이러한 양질의 데이터를 수집하는 것은 물론 특히 목적에 알맞은 정답 레이블을 할당하는 일은 매우 시간이 오래 걸리고 사람의 편향된 정보(bias)가 들어갈 수 있다는 문제를 해결하기 위해 대두됨
 
[발전방향]
Auto-encoder, GAN 
 
[학습방식]  network를 pretraining 시킨 뒤 downstream task로 transfer learning을 하는 접근 방법 
- Pretext task(사전에 정의한 문제)를 위한 Label 직접 생성하여 모델을 학습하거나, 
- 데이터 간의 관계를 이용하여 적절한 표현을 학습 (Representation Learning)
- 소량의 데이터만으로 좋은 성능을 내는 모델을 통한 전이 학습(Transfer Learning) 가능
 
 
*원데이터(Raw Data) : 
영상, 텍스트, 음성 등의 DNN의 입력으로 사용
 
*정답 레이블:
학습을 위한 목적함수(Loss Function)를 계산하는데 사용
 
*양질의 데이터셋:
각각의 태스크에 알맞은 정답 레이블링을 포함한 데이터 모음
 
*데이터셋 레이블링:
수작업이 대부분으로 시간 복잡도가 매우 높음, 작업자의 편향된 사전지식(Bias) 포함
 
[학습]
1. 오토 인코더 기반 자기 지도학습 :  BERT, GPT2, 영상의 디노이징(Denoising) 모델
2. GAN 기반 자기 지도학습 : BigGAN, BiGAN, BigBiGAN 을 통한 초해상도 복원(Super-resolution) 방법
3. 문맥(Context) 을 이용한 Pretext Task 기반 자기 지도학습: 공간적 관계, 시간적 관계
4. 대조학습(Contrastive Learning) 기반 자기 지도학습 : BYOL(Google DeepMind, Bootstrap Your Own Latent)
 
 
[장점]
1. 각 태스크에 따른 새로운 데이터셋을 구축하는 비용 및 시간 절감
2. 데이터셋 편향 현상 최소화
3. 특정 태스크 기반 동작 모델이 아닌 범용성을 가지는 모델 학습 가능
 
 
[단점]
 
[활용] 데이터의 폭발적인 증가가 일어나는 3D 시각 데이터 분야에서의 적용이 활발
강력한 표현학습이 가능한 대조학습의 등장으로 도메인 적응(Domain Adaption) 연구 분야에 기여
 
○ 자기지도학습은 주로 영상이나 이미지 관련 도메인에 많이 적용되었으며, 최근 텍스트 및 오디 오 관련 분야에서도 자기지도학습 연구가 활발히 진행 
 
- 이미지/영상 등의 색상과 화질 복원 문제에 널리 활용 - 대표적인 자연어 처리 모델인 BERT 와 GPT-2 또한 자기지도학습 기반의 단어 예측을 통한 사 전 학습 시행 
 
○ 최근 컴퓨터 비전 분야에서 자기지도학습을 활용하여 지도학습의 성능과 유사한 수준까지 도달 
- 제프리 힌튼 교수가 제안한 SimCLR모델은 지도학습의 최고 신기록과 유사한 수준의 혁신적 성과 달성
 

 

Transfer learning 기술은 target task의 데이터 양이 적을 때 딥러닝 기반의 인식률을 향상시킬 수 있는 기법 중 하나이다. 전통적인 방법으로는 이미지넷 등의 대용량 데이터셋으로부터 pre-trained model을 생성하고 이를 target task의 데이터로 fine-tuning 하는 기술이 있다. 

 
이러한 pre-training 기법은 supervised learning 기법으로 대용량 데이터를 annotation 해야 하는 비용이 발생하여, 최근에는 unlabeled data를 활용하는 방안에 대한 연구가 시도되고 있다. 특히 self-supervised learning 기법은 pretext task를 통해 의미있는 visual representation을 학습할 수 있는 방법으로 최근 다양한 연구들이 진행되고 있다.
 
테이터 분석을 통해 맞춤 정보를 제공하는 큐레이션(Curation)과 라벨링 된 데이터 세트에 의존하지 않고, 이미지 속의 물체를 인식하거나, 텍스트 블록을 해석하고 현재, 우리가 하고 있는 수많은 다른 작업을 수행하지 않고도, 주어진 모든 정보로부터 직접 학습할 수 있는 시스템을 구현하는 것으로 이동하고 있다.
 
 

페이스북 AI, 컴퓨터 비전 위한 강력하고 유연한 AI학습 플랫폼 오픈소스로 공개... 자가지도학습

인공지능(AI)의 미래는 테이터 분석을 통해 맞춤 정보를 제공하는 큐레이션(Curation)과 라벨링 된 데이터 세트에 의존하지 않고, 이미지 속의 물체를 인식하거나, 텍스트 블록을 해석하고 현재, 우

www.aitimes.kr

 

 
 
[참고]
스스로 학습하는 인공지능, 자기지도학습 (Self-supervised Learning)의 최신 연구 동향, 손진희 (2020)
 
 
스스로 학습하는 인공지능, 자기지도학습 (Self-supervised Learning)의 최신 연구 동향

 

728x90
Posted by Mr. Slumber
,