728x90
반응형
놀라운 인간의 시각
- 인간은 영상을 보고 인식, 추론, 예측, 상상 등을 수행함
- 선수가 얻을 점수까지 추정
컴퓨터가 인간 시각을 흉내 낼 수 있을까?
1.1 인간의 시각
■ 시각은 오감 중에서 가장 뛰어남
■ 인간의 눈의 구조와 동작
- 등쪽 경로(녹색)는 주로 물체의 움직임, 배쪽 경로(보라색)는 주로 물체의 부류를 알아냄
- 매 순간 빠르고 정확하게 그리고 아주 손쉽게 인식
■ 인간 시각의 강점
- 분류, 검출, 분할, 추적, 행동 분석에 능숙
- 3차원 복원 능력
- 빠르고 강건
- 다른 지능 요소인 지식 표현, 추론, 계획과 협동
- 사전 행동에 능숙
- 과업 전환이 매끄럽고 유기적이고 빠름
■ 인간 시각의 한계
- 착시가 있음
- 정밀 측정에 오차
- 시야가 한정됨
- 피로해지고 퇴화
1.2 왜 컴퓨터 비전인가?
■ 컴퓨터 비전은 인간의 시각을 흉내내는 컴퓨터 프로그램
- 인공지능의 중용한 구성 요소, 예) 시각 기능이 없는 로봇은 낮은 성능
■ 현재 컴퓨터 비전 기술로 인간에 필적하는 시각 구현은 불가능
■ 과업을 한정하면 인간 성능에 가깝거나 뛰어넘는 응용이 무궁무진
■ 몇 가지 대표적인 응용사례
- 농업, 의료, 교통, 스마트공장, 스포츠, 유통
- 보안, 에너지, 엔터테인먼트, 환경, 우주과학, 감시, 예술, 가사, 휴머노이드 로봇
1.3 컴퓨터 비전은 왜 어려운가?
■ 컴퓨터 비전이 어려운 이유는 명확
- 세상의 변화 무쌍함
- 환경(낮밤, 날씨 등) 변화, 보는 위치와 방향의 변화, 강체와 연성 물체
- 원자부터 우주까지 긴 스펙트럼에서 영상 수집
- 컴퓨터는 넘버 크런처
- 인공지능의 미숙함
- 지식 표현, 추론, 계획, 학습이 유기적으로 동작할 때만 강한 인공지능 가능
- 강한 인공지능은 먼 미래의 일 또는 영영 불가능
1.4 컴퓨터 비전의 역사
■ 신문 산업에서 태동한 디지털 영상
- 1920년 유럽과 북미 간 케이블을 통해 사진 전송하는 Bartlane 시스템 개통
■ 1946년 세계 최초의 범용 전자식 컴퓨터인 에니악 탄생
- 빠른 계산이 주목적(에니악은 초당 3000개 가량 덧셈)
■ 1957년 스캐너를 통해 디지널 영상을 컴퓨터에 저장
- 5cmX5cm 사진에서 획득한 176X176 디지털 영상 ← 컴퓨터 비전의 태동
연도 | 사건 |
1920 | - Bartlane 영상 전송 케이블 시스템 구축[McFarlane1972] |
1946 | - 세계 최초 전자식 범용 디지털 컴퓨터인 에니악 탄생 |
1957 | - 커쉬가 세계 최초로 디지털 영상을 컴퓨터에 저장 |
1958 | - 로젠블랏의 퍼셉트론 제안(이후 Mark 1 Perceptron에서 문자 인식 실험) |
1968 | - 소벨의 소벨 에지 연산자 제안 |
1979 | - IEEE Transactions on Pattern Analysis and Machine Intelligence 창간 - ACRONYM 시스템 발표[Brooks 1979] |
1980 | - 후쿠시마의 네오코그니트론 논문 발표[Fukushima 1980] |
1983 | - 제1회 CVPR(Computer Vision and Pattern Recognition)이 미국 알링턴에서 개최 |
1986 | - 캐니의 캐니 에지 연산자 논문 발표[Canny 1986] - 루멜하트의 [Parallel Distributed Processing] 출간(다층 퍼셉트론 제안) [Rumelhart 1986] |
1987 | - International Journal of Computer Vision 창간 - 런던에서 제1회 ICCV(International Conference on Computer Vision) 개최(홀수 연도) - Marr상 제정(ICCV에서 시상) - 덴버에서 제1회 NIPS(Neural Information Processing Systems)개최(2018년에 NeurIPS로 개명) |
1990 | - 프랑스 안티베이에서 제1회 ECCV(European Conference on Computer Vision) 개최(짝수 연도) |
1991 | - Eigenface 얼굴 인식 논문 발표[Turk1991] |
1998 | - 르쿤의 컨볼루션 신경망 논문 발표[LeCun1998] |
1999 | - 로우의 SIFT 논문 발표[Lowe1999] - 엔비디아에서 GPU 발표 |
2000 | - CVPR에서 OpenCV 알파 버전 공개 |
2001 | - Viola-Jones 물체 검출 논문 발표[Viola2001] |
2004 | - 그랜드 챌린지(고속도로 자율주행) |
2005 | - PASCAL VOC 대회 시작 |
2006 | - OpenCV 1.0 공개 |
2007 | - 어번 챌린지(도심 자율주행) - Azriel Rosenfeld Lifetime Achievement상 제정 |
2009 | - 페이페이 리가 CVPR에서 ImageNet 데이터셋 발표 - OpenCV 2.0 공개 |
2010 | - Xbox 360을 위한 Kinect 카메라 시판 - 제1회 ILSVRC 대회 개최 - MS COCO 데이터셋 발표 |
2012 | - ILSVRC 대회에서 AlexNet 우승[Krizhevsky2012] - 시각 장애인을 태운 자율주행차의 시범 운행 성공 |
2013 | - 아타리 비디오 게임에서 사람 성능 추월[Mnih2013] - 스콧츠데일에서 제1회 ICLR(International Conference on Learning Representations) 개최 |
2014 | - RCNN 논문 발표[Girshick2014] - 생성 모델인 GAN 발표[Goodfellow2014] - ILSVRC에서 GoogLeNet이 우승, VGGNet이 준우승 |
2015 | - 텐서플로 서비스 시작 - ILSVRC에서 ResNet이 우승 |
2016 | - 파이토치 서비스 시작 - YOLO 논문 발표[Redmon2016] |
2017 | - 트랜스포머 논문 발표[Vaswani2017] - Open Images 데이터셋 공개 - 구글렌즈 서비스 시작 |
2018 | - 인공지능이 그린 에드몽 벨라미가 경매에서 5억 원에 낙찰 - 벤지오, 힌튼, 르쿤 교수가 딥러닝으로 튜링상 수상 |
2019 | - 알파스타가 스타크래프트에서 그랜드마스터 수준 달성 - 트랜스포머를 위한 파이썬 라이브러리 transformers 2.0 공개 |
2020 | - OpenAI 재단의 GPT-3 발표 - iPad Pro에 라이다 센서 장착 |
2021 | - 비전 트랜스포머 발표[Dosovitskiy2021] - OpenAI 재단의 DALL.E 발표[Ramesh2021] |
2022 | - 구글의 Imagen 발표[Saharia2022] |
1.5 컴퓨터 비전 체험 서비스
■ 컴퓨터 비전 커뮤니티의 공개 문화
- SOTA 달성한 연구자는 논문 발표와 더불어 깃허브에 소스 코드와 데이터 공개하는 문화
- 이를 활용한 웹/앱 서비스 활성화
1.6 컴퓨터 비전 목표
■ 궁극적인 목표
- 일반적인 상황에서 잘 작동하는 인간과 같은 시각(강한 인공지능)
- 영영 불가능하거나 먼 미래에 실현
■ 현실적인 목표
- 제한된 환경에서 특정 과업을 높은 성능으로 달성(약한 인공지능)
- 컴퓨터 비전 문제를 여러 세부 문제로 구분하고 세부 문제별로 알고리즘 구상
컴퓨터 비전이 풀어야 할 문제
■ 기본문제
- 분류, 검출, 분할, 추적, 행동분석
■ 특정 상황에 따라 다양하게 변형
- 예) 사과 따는 로봇 비전 → 사과 검출에만 집중. 로봇 손을 위해 정확한 위치가 중요
■ 다른 지능 요소와 협업
- 가장 활발한 협업 분야는 자연어 처리, 예) 영상 설명하기
- 지식 표현, 추론, 계획과 협업은 매우 소강 상태
- 로봇과 협업은 활발 예) 눈-손 협업
728x90
반응형