머신러닝

[머신러닝 입문]머신러닝 주요 모델 - 데이터형

Mi-Flat 2020. 3. 31. 00:10
반응형

안녕하세요

 

오늘은 머신러닝 활용하기 위해 가장 중요한 요소인 데이터에 대해 알아보도록 하겠습니다.

먼저 데이터에 대해 '데이터형', '데이터양, '데이터 품질'로 나누어 설명드리겠습니다.

이 3가지는 서로 연관성이 있는 부분이 있고, 그에 따라 사용되는 머신러닝의 모델도 달리지게 됩니다. 

 

먼저 '데이터형(데이터유형)'은 머신러닝 모델을 선택하는 데 밀접한 영향을 미칩니다. 그렇기 때문에 데이터형을 명확하게 구분할 수 있다면 적합한 모델을 찾는 데 도움이 될 것입니다. 

 

'텍스트 데이터'는 쉽게 구할 수 있는 데이터입니다. 개별 단어나 연속 단어로 구성되기 때문에 크기를 나누기가 쉽습니다. 그러나 나누기가 쉬운 만큼 나뉘어진 데이터를 분석하기는 쉽지 않습니다. 의미를 파악하기 위해서는 단어의 연결 상태를 유추하거나 문법을 분석해야 합니다. 또한 중의어의 경우 하나의 단어가 여러가지의 의미를 내포하고 있기 때문에 구분하기가 어렵습니다. 텍스트 데이터는 나열되는 순서가 가장 중요하기 때문에 순서에 따른 의미 변화를 모델링하기 위해서는 앞서 설명드린 '순차모델'을 적용하기에 적합합니다. 

 

'수치 데이터'는 여러가지 형태의 수치의 형태를 띤 데이터를 말합니다. 많은 양의 데이터를 얻을 수 있다는 장점이 있으나, 그만큼 노이즈도 많습니다. 노이즈는 많은 원인이 있지만 일반적으로 '센서 노이즈'와 '현상의 무작위성'에 의해 발생합니다. 대부분 숫자 '피처(Feature)'를 가지기 때문에 데이터의 밀도가 높습니다. 수치 데이터는 대부분 노이즈가 많은 데이터이기 때문에 노이즈에 강한 모델을 사용해야 합니다. 순차 모델 중 '칼만 필터' 모델이 대표적입니다.

 

'이미지 데이터'는 최근 스마트폰, 디지털 카메라 등 사진 촬영이 쉬워지면서 이미지 데이터의 양이 급증하였습니다. 양이 많다는 것은 딥러닝 모델의 성능을 향상시키는 데 도움이 됩니다. 이미지 데이터의 가장 큰 특징은 값과 위치에 따라 점의 의미가 달라진다는 것입니다. 점은 픽셀로 표현되며 각각의 픽셀이 가지는 의미를 통해 이미지 데이터를 분석합니다. 즉 픽셀 데이터가 다른 픽셀 데이터 밀접한 관계를 가지고 있다는 것입니다. 이러한 근접 연관성을 다루기 위한 모델은 그래프 모델 중 'CNN'으로 딥러닝 기법 중 하나입니다. 한 픽셀과 그 주변 픽셀의 값을 동시에 고려하여 피처를 생성하는 특징이 있습니다. 

 

'비디오 데이터'는 영상이지만 연속적인 이미지로 분석할 수 있습니다. 분석하는 방법 또한 비슷하며, 그래프 모델의 구조 모델을 확장하여 위치 근접도와 시간 근접도를 복합적으로 적용한 기법을 사용합니다.

 

'음성 데이터'는 수치 데이터와 비슷합니다. 노이즈가 많고 시간 변화가 중요하기 때문에 그에 맞는 머신러닝 기법을 사용해야 합니다. 소리 데이터는 높낮이나 음색에 대해 전처리 과정 이후 분석을 하게 됩니다. 대표적인 기법으로 '스펙트로그램'이나 '퓨리에 피처' 등이 있습니다. 

 

'복합 데이터'는 다양한 유형의 데이터가 섞여 있는 것입니다. 각각의 데이터 유형을 연관지어 동시 학습할 수 있습니다. 최근 이미지 분류와 자막 분류를 하는 신경망 모델을 동시에 중간 레이어를 공유해서 학습하는 방법이 많이 활용되고 있습니다.  

 

데이터형은 머신러닝 모델 구성 시 가장 중요한 요소입니다. 데이터형을 잘 구분한다면 적절한 모델을 선택하는 것은 더욱 용이해질 것입니다. 각각의 데이터를 분석하는 모델은 당연하게도 데이터의 특징에 따라 달라지게 됩니다. 각 모델의 분석 및 계산 방법을 아는 것도 중요하지만 어떤 데이터 셋을 활용하여 어떤 목적으로 활용되는가에 따라 효율성이 달라질 수 있습니다. 주변에서 흔히 볼 수 있는 수많은 데이터에 관심을 가지고 조금씩 머신러닝 모델을 적용해보는 생각을 해보면 좋겠습니다. 다음에는 데이터양과 품질에 대해 알아보겠습니다.

 

감사합니다.

반응형