"Deeper is better", 인간과 기계의 간극을 줄이는 딥러닝

'운동화끈'을 번역하면 Exercise Hot? Adobe 보정사진 되돌리는 AI공개, 사진 보정확률과 보정된 부분 표시

2022-04-24     성연수 기자

[월드투데이 성연수기자] 딥러닝은 다소 생소한 단어일 수도 있지만 코딩을 해본 사람이나 과학 트랜드에 민감한 사람이라면 친숙한 단어일 것이다. 딥러닝은 우리 주위에 네이버, 구글 같은 IT기업에서 적극적으로 사용하며 알게 모르게 우리 삶에 녹아있다.

[사진=픽사베이]

딥러닝은 '뉴럴 네트워크'를 이용해 '머신러닝'을 진행하는 것이라 볼 수 있다. 머신러닝은 인공지능의 한 분야로 기계가 스스로 학습하고 알아서 의사 결정하게 한다. 

인간의 뇌는 고양이를 볼 때, 삼각형의 귀, 동그란 눈과 작은 몸, 유연한 움직임, 갸르릉거리는 울음소리 등의 고양이의 특징을 보고 고양이를 인식한다.

더 나아가 울음소리같이 일부분만 보고 고양이라 판단하지 않고 고양이라 판단하는 요소에 가중치를 두어 울음소리가 이상해도 뾰족한 귀와 수염 형태를 보고 고양이를 확신한다.

공학자들은 뇌가 학습하는 메커니즘을 그대로 인공지능에 적용해서 탄생한 것이 딥러닝이다.

[사진=픽사베이]

기존의 인공지능은 분류 모델을 만들기 위해 객체를 구분할 수 있는 특성인자(feature)를 사람이 학습시켜 주어야 했지만 그럴 필요 없이 특성인자를 스스로 학습한다.

즉, 인간이 가이드라인을 내려 줄 필요 없어 자신이 모르는 분야라 할지라도 많은 문제를 해결할 수 있다.

한편, 학습을 위한 데이터가 많을수록 정확해지기 때문에 빅데이터 기술이 발전해 나감에 따라 딥러닝 기술이 더 정밀해질 것이다.

이 사진이 보정되었을 확률은 100%
이 보정된 사진, 보정 전으로 돌려 드릴까요?

2019년 Adobe사의 'Project about face'는 딥러닝을 활용하여 사진이 보정되었을 확률과 보정된 부분, 보정하기 전 사진으로 되돌리는 ai를 공개하였다. 사람은 보정 전 사진과 보정한 사진을 보여주었을 때 53%만이 보정된 얼굴을 판단할 수 있었지만 딥러닝을 활용한 AI는 99%에 달하는 높은 결과를 얻었다.

[사진=Adobe 유튜브 캡쳐]

이는 이미지 데이터 처리에 적합한 딥러닝의 한 형태인 CNN(Convolutional  Neural  Network)을 활용한 것으로 이미지에서 뛰어난 사물을 인식 기능이 가지고 있다. 현재 구글, 네이버 등의 국내외 IT 기업에서 CNN 기능을 이용한 사진 자동 분류, 이미지 검색 등의 서비스에 활용하고 있다.

CNN 기술은 자율주행자동차가 주변 사물을 구분하게 하여 스스로 주행하게 만든다. 주변 이미지를 추출한 후, 가중치를 매겨 이미지를 판단해 사람, 도로, 신호등 등을 구분한다.

네이버 와 구글은 각각 N드라이브와 구글포토에 업로드된 사진을 CNN 기술을 이용해 알아서 자동으로 사람, 음식, 풍경 등의 다양한 테마별로 검색하는 서비스를 제공하며, 구글포토의 경우 학습 과정에서 날짜와 시간, 장소, 텍스트 등을 학습해 생일이나 휴일 같은 여러 이벤트를 구분한다.  

구글의 딥마인드가 개발한 인공지능 바둑 프로그램인 알파고는 CNN을 활용하여 학습을 진행했다. 

[사진=픽사베이]

알파고는 학습데이터에서 유사한 데이터를 추출해 모든 경우의 수를 시뮬레이션하지 않고 결과확률을 계산해 바둑을 두어 전 세계 최고 수준의 기사로 평가받는 이세돌과의 대국에서 4승 1패를 기록하여 전 세계를 떠들썩하게 만들었다.

이렇듯 CNN의 훌륭한 사물 인식 기능을 활용하여 국내외 대다수의 IT 기업이 내용 기반 이미지 검색, 이미지 분류 등 이미지 관련 서비스에 본격적으로 사용하고 있다.

운동화 끈 번역하면 EXERCISE HOT?

RNN(Recursive  Neural  Networks)은 딥러닝을 통해 도출된 결과값을 다시 데이터로 사용해 학습해 새로운 결과값을 얻는 형식의 딥러닝의 한 형태이다. 

또한 문장 구조를 쉽게 파악하여 더 정확한 의미를 해석해 구문을 분석이나 감성을 분석하는 능력이 탁월하다.

이를 통해 학습한 모델은 아무 단어나 넣으면 다음에 나올 단어를 예측하는 것도 가능하다. 

또한 텍스트에서 사람들의 태도와 의견, 성향 등의 주관적인 데이터를 분석 및 학습하는 감성분석은 시장현황과 주식에서 사람들의 반응을 측정하는 도구로 활용되고 있다.

[사진=픽사베이]

현재 사용하는 자동번역 모델은 RNN을 기반으로 만들어진 경우가 많다. 구글 번역에 활용되는 번역모델인 Seq2seq는 한 문장의 여러 개의 단어를 묶어서 학습하고 번역 대상을 학습한 묶음과 비교해 상관관계를 학습한다. 이를 방대한 데이터를 통해 완전히 통달하기까지 반복한다.

과거 구글 번역에서도 딥러닝이 활용되었지만 밤이나 머리 같이 단어의 뜻이 한 개가 아닐 경우 이를 구분하지 못했다. '운동화끈'을 번역하면 운동과 화끈으로 나뉘어 번역이 되어 Exercise Hot으로 검색된 사진은 커뮤니티에 돌아 사람들의 웃음을 자아냈다. 

[사진=구글번역 캡쳐]

한편, 구글과 페이스북은 CNN이나 RNN이 필요 없는 더 나은 번역모델을 개발하여 문제를 해결했다.