반응형

전체 글 63

[머신러닝 입문]문서 분석 시스템 만들기

안녕하세요 오늘은 '문서 분석 시스템' 만들기에 대해 알아보겠습니다. 머신러닝을 활용하는 한 분야로 여러 문서를 분석합니다. 문서 내 단어의 개수나 빈도, 주변 단어 연관성 등 여러가지 기준으로 학습을 합니다. 여러가지 학습 모델을 통해 효율적인 방법에 대해 알아보겠습니다. 문서의 주제, 문자 구조 파악, 고유 명사 추출 등의 용도로 사용되며, 예전보다 온라인 상에서 텍스트로 구성된 데이터가 많이 활용되고 있기 때문에 이러한 텍스트 데이터로부터 의미있는 패턴이나 결과를 도출하는 것이 중요합니다. 특히 인터넷 신문이나 포털사이트, 백과사전, 쇼핑몰 등에서 텍스트 데이터는 매우 중요합니다. 그러나 텍스트 데이터는 중의적인 표현, 순서 및 주변 단어 배열에 의해 결과가 많이 바뀌기 때문에 분석하기가 쉽지 않습..

머신러닝 2020.04.03

[머신러닝 입문]머신러닝 주요 문제 유형

안녕하세요 오늘은 머신러닝 주요 문제 유형에 대해 알아보겠습니다. 본격적인 머신러닝 활용 사례를 알아보기 전에 대표적으로 어떤 문제를 해결하기 위해 어떤 모델이 사용되는지 알아보겠습니다. 문제 유형을 잘 구분하여 사용해야 모델의 학습 성능을 높일 수 있습니다. 문제 유형에는 '회귀', '분류', '군집화', '표현형 학습'이 있습니다. '회귀' 문제'는 머신러닝 중 가장 기본이 되는 문제 유형으로, 입력된 데이터에 대해 적합한 숫자값을 예측하는 문제입니다. 데이터들의 값을 입력 분석하여 의미 있는 값으로 출력하는 가장 기본적인 알고리즘 형태가 되겠습니다. 기본적인 이유는 출력되는 값의 해석이 여러가지로 풀이되어 여러 문제를 포함하기 때문입니다. 그리고 이런 회귀 문제를 해결하기 위한 머신러닝 기법 또한 ..

머신러닝 2020.04.01

[머신러닝 입문]머신러닝 주요 모델-데이터양과 품질/표준화

안녕하세요 오늘은 머신러닝 주요 모델 중 데이터양과 품질, 표준화, 문제 유형에 대해 알아보겠습니다. 머신러닝은 데이터를 기반으로 작업을 하기 때문에 앞서 살펴본 데이터형이나 데이터양, 품질, 데이터 표준화, 그리고 문제의 유형 등 데이터를 어떻게 받아들이고 출력값을 어떻게 계산하여 내보낼 것인가가 매우 중요합니다. 먼저 데이터양에 대해 알아보면, 데이터의 양이 많으면 머신러닝을 활용하기 좋습니다. 그러나 무작정 데이터의 양이 많기 보다는 특정 항목에 대한 데이터가 충분해야 합니다. 이미지 태깅이나 문법 파싱처럼 사람이 입력값을 일일이 입력하는 경우 데이터의 레이블을 얻기 어려운경우가 발생합니다. 이런 경우 '액티브 러닝 기법'을 활용하는데, 학습이 잘되지 않은 부분을 머신러닝 시스템이 사람에게 질문하는..

머신러닝 2020.03.31

[머신러닝 입문]머신러닝 주요 모델 - 데이터형

안녕하세요 오늘은 머신러닝 활용하기 위해 가장 중요한 요소인 데이터에 대해 알아보도록 하겠습니다. 먼저 데이터에 대해 '데이터형', '데이터양, '데이터 품질'로 나누어 설명드리겠습니다. 이 3가지는 서로 연관성이 있는 부분이 있고, 그에 따라 사용되는 머신러닝의 모델도 달리지게 됩니다. 먼저 '데이터형(데이터유형)'은 머신러닝 모델을 선택하는 데 밀접한 영향을 미칩니다. 그렇기 때문에 데이터형을 명확하게 구분할 수 있다면 적합한 모델을 찾는 데 도움이 될 것입니다. '텍스트 데이터'는 쉽게 구할 수 있는 데이터입니다. 개별 단어나 연속 단어로 구성되기 때문에 크기를 나누기가 쉽습니다. 그러나 나누기가 쉬운 만큼 나뉘어진 데이터를 분석하기는 쉽지 않습니다. 의미를 파악하기 위해서는 단어의 연결 상태를 유..

머신러닝 2020.03.31

[머신러닝 입문]머신러닝 주요 개념-모델 평가

안녕하세요 오늘은 머신러닝 주요 개념 중 '모델 평가' 에 대해 알아보겠습니다. 모델 평가란 모델이 얼마나 분석력이 뛰어난지, 또 데이터를 잘 표현했는지 성능을 평가하는 것입니다. 앞서 설명드린 손실함수는 모델이 최적화 될 수 있는 수식을 찾아 계산하는 방법인 것입니다. 모델 평가에서 중요한 개념은 '일반화' 인데, 이것은 학습한 데이터 뿐 아니라 새로운 데이터가 입력되었을 때 잘 작동하는지를 나타냅니다. 실제 머신러닝 구축 및 활용에서 가장 중요한 요소라고 할 수 있습니다. 새로운 데이터가 들어왔을 때 모델이 잘 작동하는지가 중요한 이유는 기존의 학습된 데이터로만으로는 데이터 패턴이 제한되기 때문입니다. 이러한 문제를 '과적합(오버피팅)'이라고 합니다. 모델의 일반화 특성 평가는 한정된 데이터로 모델의..

머신러닝 2020.03.29

[머신러닝 입문]머신러닝의 주요 개념 - 최적화

안녕하세요 오늘은 머신러닝의 주요 개념 중 '최적화'에 대해 알아보겠습니다. 앞서 데이터를 정확하게 분석, 예측하기 위한 여러가지 모델 선정 방법과 모델이 분석한 예측값이 정확한지, 잘 표현되었는지 손실에 대해 계산하는 손실함수에 대해 설명드렸습니다. 이번에는 손실함수를 이용하여 모델이 학습을 하는 방법을 알아보겠습니다. '최적화'란 손실함수의 결과값을 최소화하는 모델의 인자를 찾는 것입니다. 대표적으로 '경사하강법', '뉴턴/준뉴턴 방법', '확률적 경사하강법', '역전파'가 있습니다. '경사하강법'은 임의의 점을 선정한 후 경사를 따라가다가 최저값에 도달하도록 하는 방법입니다. 가장 간단한 최적화 방법 중 하나입니다. 경사값을 구하는 방법은 함수의 1차 미분값으로 구할 수 있습니다. 경사는 함수의 방..

머신러닝 2020.03.28

[머신러닝 입문]머신러닝 주요 개념 : 손실함수

안녕하세요 오늘은 지난 주요 개념에 이어 머신러닝의 주요 개념 중 하나인 '손실함수'에 대해 알아보겠습니다. 손실함수(Loss Function)으로, 말그대로 모델이 데이터를 잘 표현했는지 얼마나 예측을 정확하게 했는지 수학적으로 떨어져 있는지 계산하는 함수입니다. 경제학에서 먼저 사용된 용어로 Cost Function 이라고도 합니다. 손실이 적을 수록 데이터 예측을 정확하게 했다고 볼 수 있습니다. 손실함수를 사용할 때 중점을 어느 부분에 두느냐에 따라 값이 달라질 수 있습니다. 그때는 각각의 손실함수를 덧붙여 활용할 수 있습니다. 손실함수는 대개 데이터 전체를 대상으로 계산하는 함수지만, 각 데이터별 손실함수를 계산하여 그 값을 더해 손실함수를 계산하기도 합니다. 확률적 독립이고 같은 분포를 가진다..

머신러닝 2020.03.27

[머신러닝 입문]머신러닝의 주요 개념-모델

안녕하세요 오늘은 머신러닝이 어떠한 과정으로 진행되며 그 과정에서 중요한 개념에 대해 알아보도록 하겠습니다. 머신러닝은 말그대로 기계학습입니다. 정해지지 않은 알고리즘을 각각의 데이터들의 특징을 분석하여 하나의 형태로 표현하는 과정이라고 할 수 있습니다. 주요 개념은 4가지로 구성이 됩니다. '모델'-'손실함수'-'최적화'-'모델 평가' 이 4가지 개념 중 '모델'에 대해 알아보겠습니다. 머신러닝을 하기 위한 틀과 같은 개념으로, 데이터를 분석하기 위한 모델을 설정함으로써 보다 효율적으로 문제를 해결할 수 있습니다. 즉 모델을 가정하고, 수식화하여 표현하고, 모델을 통해 학습하고, 그 결과를 평가한 뒤 반복 과정을 통해 유의미한 패턴이나 결과를 도출해내는 과정을 머신러닝 과정이라고 볼 수 있습니다. 이 ..

머신러닝 2020.03.26

[AI 입문]인공지능의 분류

안녕하세요 오늘은 인공지능의 분류에 대해 알아보겠습니다. 인공지능하면 알파고나 시리, 터미네이터 등 영화나 방송에서 나온 대표적인 예들로 기억을 하실겁니다. 이외에도 다양한 산업군과 연계하여 여러가지 문제 해결을 위해 인공지능이 활용되고 있습니다. 머신러닝과 딥러닝을 통해 인공지능을 개발하는 것이 중요한만큼 인공지능이 발전되고 있는 방향이나 향후 달라질 인간과 기계의 공존에 대해서도 사고하며 인공지능을 이해하면 좋겠습니다. 인공지능은 만들고자 하는 그 목적에 따라 구분을 할 수 있습니다. '약한 인공지능', '강한 인공지능', 'Super 인공지능'으로 나눌 수 있습니다. 이 내용은 John R. Searle의 논문에서 시작되었으며, 약한 인공지능이란 특정한 문제를 해결하기 위한 기능을 수행하기 위해 프..

AI 2020.03.25

[머신러닝 입문]머신러닝의 관점과 기법

안녕하세요 오늘은 머신러닝의 중요 관점과 여러가지 기법에 대해 알아보겠습니다. 먼저 머신러닝의 중요 관점이라는 것은 머신러닝 기법을 활용해서 얻고자하는 목표나 과정에 따라 달라지게 됩니다. 관점을 나누는 기준은 여러가지 논의가 있지만, 검색을 해도 많은 내용이 나오지 않습니다. 그 중 한 가지인 제이슨 아이스너의 관점을 살펴보도록 하겠습니다. 첫 번째 관점은 '통찰력' 입니다. 머신러닝 기법을 활용하였을 때 통찰력이 있는 모델을 완성한다고 생각하였습니다. 즉 여러 데이터에 대한 분석을 통해 통찰력을 보여줄 수 있는 좋은 모델을 형성하는 것이 중요하다라고 생각한 것입니다. 대표적인 기법으로 '베이지언' 기법이 있습니다. 두 번째 관점은 '이론적 엄정성' 입니다. 기법을 분석하기 용이한지를 중심에 두고 머신..

머신러닝 2020.03.24
반응형