이 강좌의 마지막 강의다.
컴퓨터 비전이란?
사람의 눈으로 할 수 있는 일들을 컴퓨터에게 가르치는 학문
컴퓨터 비전은 사람의 시각을 모사하기 위해 시작되었다고 할 수 있다.
시각 능력으로 할 수 있는 것:
할 수 있지만 힘든 것:
착시현상
세부 디테일을 기억하는 능력이 떨어짐
장면에 대한 인식이 개인마다 다름
정확한 측정은 힘듬
기억력이 떨어짐
이런 부분은 컴퓨터 비전이 오히려 더 뛰어남
기계가 잘 할수 있는 부분과 사람이 잘 할수 있는 부분은 다름
착시현상의 예:
...
컴퓨터 비전이란 결국
사람의 눈으로 할 수 있는 일을 기계에게 가르쳐 주는 것
사진(모든 형태의 이미지)을 지능적으로 해석할 수 있는 능력
대뇌에서 시각을 담당하는 부분, Visual Cortex를 인공적으로 만드는 것
Inverse optics = 이미지에서 빛과 환경을 알아내는 과정
컴퓨터 비전의 작업은 3단계 레벨로 구분할 수 있다.
Low-level
입력과 출력이 이미지인 경우
image -> image
Mid-level
이미지에서 어떤 특징을 알아내는 것
image -> feature
High-level
이미지에서 의미를 알아내는 것
image -> semantics
Low-level
이미지를 입력으로 받아 이미지를 출력
deblurring
흐릿한 이미지를 선명하게 바꾸는 작업
edge-detection
밝기가 급격하게 변하는 부분을 찾아내는 작업
super-resolution
저해상도 이미지를 고해상도 이미지로 바꾸는 작업
colorization
흑백 이미지를 컬러 이미지로 바꾸는 작업
Mid-level
입력은 이미지, 출력은 feature
boundary detection
경계를 정확히 찾아내는 작업
edge detection에서 발전한 것
segmentation
이미지를 동일한 영역으로 분할하는 것
shape-from-shading
그림자로부터 형태를 알아내는 작업(평면에서 입체를 알아내는 작업)
alignment
두 이미지에서 같은 부분을 찾아내는 작업
High-level
이미지가 들어오면 그것의 의미를 찾아내는 것
image classification
이미지 분류
object detection
찾고자 하는 물체가 이미지상에 어디에 존재하는 지 사각형으로 영역을 지정하고, 그 안에 어떤 object가 있는지 알아내는 작업
image captioning
이미지가 주어지면 그것을 설명하는 문장을 만드는 작업
pose detection
주어진 사진에 사람이 있는 경우에 사람이 어떤 자세로 있는지 알아내는 작업
이외에도 다양한 문제가 존재함
컴퓨터 비전 vs 영상처리
영상처리는 입력과 출력이 image: low-level 작업과 비슷함
컴퓨터 비전은 영상처리의 테크닉을 많이 사용하지만 더 높은 수준의 지능적인 분석을 많이 다루게 됨
컴퓨터 비전이 어려운 이유
우리 환경은 3차원인데, 사진은 2차원
따라서 어떤 방향으로 사진을 찍냐에 따라 결과가 다르게 나타남
광원의 위치와 세기에 따라서도 사진이 다르게 나타남
-> 그림자, 역광
반사
자율주행 자동차가 반사된 이미지를 구분하지 못하면?
굴절, 반투명
자연현상(비, 눈, 안개 등)
Occlusion(가림현상)
일부분이 가려진 물체도 컴퓨터가 인식을 해내야 함
사람은 아주 일부분만 보이고 나머지가 다 가려진 물체에서도 원래 물체가 무엇인지 알 수 있다.
Scale
똑같은 물체라도 이미지상에서는 크기가 다르게 보일 수 있다.
우리는 이미지에서 물체를 인식할 때, 주변의 context를 읽어 해당 물체를 파악한다.
Deformation
자동차같은 강체는 그래도 형태가 정해져있지만, 동물같은 경우는 자유롭게 형태가 달라진다.
Background Clutter
배경의 난잡함
Object Intra-Class Variation
같은 물체라 해도 종류가 매우 다양할 수 있다.
예: 의자. 의자의 역할을 할 수 있게 생겼으면 다 의자라 할 수 있다.
'배움 기록 > K-MOOC' 카테고리의 다른 글
인공지능의 기초 7. 자연어 처리 (0) | 2021.04.27 |
---|