본문 바로가기
끝이없는 공부/컴퓨터비전시스템

컴퓨터비전 시스템의 개요

by 블루데이제이 2024. 9. 13.
728x90
반응형
놀라운 인간의 시각
  • 인간은 영상을 보고 인식, 추론, 예측, 상상 등을 수행함
  • 선수가 얻을 점수까지 추정
컴퓨터가 인간 시각을 흉내 낼 수 있을까?

 

1.1 인간의 시각

■ 시각은 오감 중에서 가장 뛰어남

■ 인간의 눈의 구조와 동작

  • 등쪽 경로(녹색)는 주로 물체의 움직임, 배쪽 경로(보라색)는 주로 물체의 부류를 알아냄
  • 매 순간 빠르고 정확하게 그리고 아주 손쉽게 인식

인간 시각의 강점

  • 분류, 검출, 분할, 추적, 행동 분석에 능숙
  • 3차원 복원 능력
  • 빠르고 강건
  • 다른 지능 요소인 지식 표현, 추론, 계획과 협동
  • 사전 행동에 능숙
  • 과업 전환이 매끄럽고 유기적이고 빠름

 인간 시각의 한계

  • 착시가 있음
  • 정밀 측정에 오차
  • 시야가 한정됨
  • 피로해지고 퇴화

 

1.2 왜 컴퓨터 비전인가?

컴퓨터 비전은 인간의 시각을 흉내내는 컴퓨터 프로그램

  • 인공지능의 중용한 구성 요소, 예) 시각 기능이 없는 로봇은 낮은 성능

현재 컴퓨터 비전 기술로 인간에 필적하는 시각 구현은 불가능

과업을 한정하면 인간 성능에 가깝거나 뛰어넘는 응용이 무궁무진

몇 가지 대표적인 응용사례

  • 농업, 의료, 교통, 스마트공장, 스포츠, 유통
  • 보안, 에너지, 엔터테인먼트, 환경, 우주과학, 감시, 예술, 가사, 휴머노이드 로봇

 

1.3 컴퓨터 비전은 왜 어려운가?

컴퓨터 비전이 어려운 이유는 명확

  • 세상의 변화 무쌍함
  • 환경(낮밤, 날씨 등) 변화, 보는 위치와 방향의 변화, 강체와 연성 물체
  • 원자부터 우주까지 긴 스펙트럼에서 영상 수집
  • 컴퓨터는 넘버 크런처
  • 인공지능의 미숙함
  • 지식 표현, 추론, 계획, 학습이 유기적으로 동작할 때만 강한 인공지능 가능
  • 강한 인공지능은 먼 미래의 일 또는 영영 불가능

 

1.4 컴퓨터 비전의 역사

신문 산업에서 태동한 디지털 영상

  • 1920년 유럽과 북미 간 케이블을 통해 사진 전송하는 Bartlane 시스템 개통

1946년 세계 최초의 범용 전자식 컴퓨터인 에니악 탄생

  • 빠른 계산이 주목적(에니악은 초당 3000개 가량 덧셈)

1957년 스캐너를 통해 디지널 영상을 컴퓨터에 저장

  • 5cmX5cm 사진에서 획득한 176X176 디지털 영상 ← 컴퓨터 비전의 태동
연도 사건
1920 - Bartlane 영상 전송 케이블 시스템 구축[McFarlane1972]
1946 - 세계 최초 전자식 범용 디지털 컴퓨터인 에니악 탄생
1957 - 커쉬가 세계 최초로 디지털 영상을 컴퓨터에 저장
1958 - 로젠블랏의 퍼셉트론 제안(이후 Mark 1 Perceptron에서 문자 인식 실험)
1968 - 소벨의 소벨 에지 연산자 제안
1979 - IEEE Transactions on Pattern Analysis and Machine Intelligence 창간
- ACRONYM 시스템 발표[Brooks 1979]
1980 - 후쿠시마의 네오코그니트론 논문 발표[Fukushima 1980]
1983 - 제1회 CVPR(Computer Vision and Pattern Recognition)이 미국 알링턴에서 개최
1986 - 캐니의 캐니 에지 연산자 논문 발표[Canny 1986]
- 루멜하트의 [Parallel Distributed Processing] 출간(다층 퍼셉트론 제안) [Rumelhart 1986]
1987 - International Journal of Computer Vision 창간
- 런던에서 제1회 ICCV(International Conference on Computer Vision) 개최(홀수 연도)
- Marr상 제정(ICCV에서 시상)
- 덴버에서 제1회 NIPS(Neural Information Processing Systems)개최(2018년에 NeurIPS로 개명)
1990 - 프랑스 안티베이에서 제1회 ECCV(European Conference on Computer Vision) 개최(짝수 연도)
1991 - Eigenface 얼굴 인식 논문 발표[Turk1991]
1998 - 르쿤의 컨볼루션 신경망 논문 발표[LeCun1998]
1999 - 로우의 SIFT 논문 발표[Lowe1999]
- 엔비디아에서 GPU 발표
2000 - CVPR에서 OpenCV 알파 버전 공개
2001 - Viola-Jones 물체 검출 논문 발표[Viola2001]
2004 - 그랜드 챌린지(고속도로 자율주행)
2005 - PASCAL VOC 대회 시작
2006 - OpenCV 1.0 공개
2007 - 어번 챌린지(도심 자율주행)
- Azriel Rosenfeld Lifetime Achievement상 제정
2009 - 페이페이 리가 CVPR에서 ImageNet 데이터셋 발표
- OpenCV 2.0 공개
2010 - Xbox 360을 위한 Kinect 카메라 시판
- 제1회 ILSVRC 대회 개최
- MS COCO 데이터셋 발표
2012 - ILSVRC 대회에서 AlexNet 우승[Krizhevsky2012]
- 시각 장애인을 태운 자율주행차의 시범 운행 성공
2013 - 아타리 비디오 게임에서 사람 성능 추월[Mnih2013]
- 스콧츠데일에서 제1회 ICLR(International Conference on Learning Representations) 개최
2014 - RCNN 논문 발표[Girshick2014]
- 생성 모델인 GAN 발표[Goodfellow2014]
- ILSVRC에서 GoogLeNet이 우승, VGGNet이 준우승
2015 - 텐서플로 서비스 시작
- ILSVRC에서 ResNet이 우승
2016 - 파이토치 서비스 시작
- YOLO 논문 발표[Redmon2016]
2017 - 트랜스포머 논문 발표[Vaswani2017]
- Open Images 데이터셋 공개
- 구글렌즈 서비스 시작
2018 - 인공지능이 그린 에드몽 벨라미가 경매에서 5억 원에 낙찰
- 벤지오, 힌튼, 르쿤 교수가 딥러닝으로 튜링상 수상
2019 - 알파스타가 스타크래프트에서 그랜드마스터 수준 달성
- 트랜스포머를 위한 파이썬 라이브러리 transformers 2.0 공개
2020 - OpenAI 재단의 GPT-3 발표
- iPad Pro에 라이다 센서 장착
2021 - 비전 트랜스포머 발표[Dosovitskiy2021]
- OpenAI 재단의 DALL.E 발표[Ramesh2021]
2022 - 구글의 Imagen 발표[Saharia2022]

 

1.5 컴퓨터 비전 체험 서비스

컴퓨터 비전 커뮤니티의 공개 문화

  • SOTA 달성한 연구자는 논문 발표와 더불어 깃허브에 소스 코드와 데이터 공개하는 문화
  • 이를 활용한 웹/앱 서비스 활성화

 

1.6 컴퓨터 비전 목표

궁극적인 목표

  • 일반적인 상황에서 잘 작동하는 인간과 같은 시각(강한 인공지능)
  • 영영 불가능하거나 먼 미래에 실현

현실적인 목표

  • 제한된 환경에서 특정 과업을 높은 성능으로 달성(약한 인공지능)
  • 컴퓨터 비전 문제를 여러 세부 문제로 구분하고 세부 문제별로 알고리즘 구상

 

컴퓨터 비전이 풀어야 할 문제

 기본문제

  • 분류, 검출, 분할, 추적, 행동분석

특정 상황에 따라 다양하게 변형

  • 예) 사과 따는 로봇 비전 → 사과 검출에만 집중. 로봇 손을 위해 정확한 위치가 중요

다른 지능 요소와 협업

  • 가장 활발한 협업 분야는 자연어 처리, 예) 영상 설명하기
  • 지식 표현, 추론, 계획과 협업은 매우 소강 상태
  • 로봇과 협업은 활발 예) 눈-손 협업
728x90
반응형