안녕하세요
오늘은 인공지능 학습을 위한 가장 기본적이지만, 어찌보면 가장 중요한 내용인 데이터에 대해 알아보겠습니다.
일반적인 데이터에 대한 개념과 더불어, 인공지능 학습을 위한 데이터 전처리, 가공 및 분석 측면에서
어떤 방법으로 다뤄지는지까지, 나아가 데이터 관련 자격증 공부와 연관된 내용으로 다뤄보겠습니다.
데이터에 대한 정의부터 살펴 보자면,
데이터는 '객관적인 사실(Fact)'라는 존재적 특성을 가진다고 합니다.
즉 데이터 자체만으로는 어떤 의미를 가지지 않는, 누가 봐도 똑같이 볼 수 있는 실체라는 것입니다.
다른 특성으로 당위적 특성이 있는데, 데이터를 추론, 예측, 전망, 추정을 위한 근거로 활용하는 경우에 해당합니다.
다른 어떠한 상황이나 다른 변수와 관련하여 상호 관계적인 의미를 갖는다고 볼 수 있습니다.
데이터의 유형에는 정성적, 정량적 데이터로 구분할 수 있습니다.
정성적 데이터는 언어, 문자 등의 형태로 측정하지 않는 설명하는 형태를 말합니다.
정량적 데이터는 수치, 도형, 기호와 같이 나이, 몸무게, 키 등 특정한 측정값을 가지는 형태입니다.
어떠한 사회 경제 문화적 현상을 이해하기 위해서도 어느 한 가지 잣대만으로 판단하는 것은 위험할 수 있습니다.
최근 인공지능 학습에 활용되는 데이터에 대한 관심이 증대하면서 정성적인 데이터뿐 아니라 정량적인 데이터 가공에
대한 관심이 크게 증가하였습니다.
지식 경영에 활용되는 지식에 대해 2가지 차원으로 구분한 내용인 암묵지와 형식지에 대해 알아보겠습니다.
암묵지는 학습과 체험을 통하여 개인에게 습득되지만 겉으로는 드러나지 않는 상태의 지식이라 할 수 있고,
형식지는 암묵지가 문서나 매뉴얼처럼 외부로 표출되어서 여러 사람이 공유할 수 있는 지식입니다.
예전에는 오랜 경험과 노하우를 기반으로 축적된 데이터가 체득, 즉 몸으로 익혀 다른 사람에게 전달하기 까지
오랜 시간이 소요되었습니다. 장인이나 전문가, 달인 등으로 표현되기도 합니다.
그래서 이러한 지식의 공유, 지식을 경영한다고 하여 개인의 암무지와 집단에서의 형식지가 나선형 형태로 발전되는
형태를 두고 지식 경영이라고 합니다.
또한 데이터와 정보, 지식, 지능에 대한 구분도 중요한 내용 중 하나입니다.
DIKW 피라미드를 통해 계층 구조로 나누어 살펴볼 수 있습니다.
먼저 데이터는 가공하기 전의 순수한 수치나 기호 등으로 볼 수 있습니다.
다음 정보는 가공 및 상관관계 간 이해를 통해 패턴을 인식하고 의미를 부여하는 단계에 해당합니다.
지식은 상호 연결된 정보 패턴을 이해하여 이를 바탕으로 판단하여 얻은 결과물에 해당합니다.
마지막으로, 지능은 원리에 대한 이해를 바탕으로 새롭게 도출되는 아이디어라고 볼 수 있겠습니다.
예를 들어,
A카페의 아메리카노가 2,000원, B카페의 아메리카노가 3,000원이란 객관적인 사실은 - 데이터
A카페의 아메리카노가 1,000원 더 싸다는 상호 비교를 통해 얻은 내용은 - 정보
더 저렴한 A카페의 아메리카노를 구매하여 얻은 것은 - 지식
A카페의 다른 음료는 B카페의 다른 음료보다 저렴할 것이다라는 예측은 - 지능
이렇게 정리할 수 있겠습니다.
주변에서 흔히, 또는 무심하게 흘려보내는 데이터가 생각보다 무지하게 많은 것은 부정할 수 없는 사실입니다.
주변의 모든 정성적, 정량적 데이터를 인식하고 수지하여 가공하는 것이 중요한 것이 아니라,
주변의 데이터 중 나에게 도움이 되고, 미래를 예측할 수 있도록 판단력에 영향을 미칠 수 있는 데이터가
무엇인지 구분하고 활용하는 능력이 중요한 것입니다.
앞으로 데이터 베이스 및 데이터 가공 기술, 프로그램 등에 대해 알아보면서
데이터의 발전과 향후 데이터 관련 산업의 전망에 대해서도 함께 살펴보겠습니다.
감사합니다.
'데이터' 카테고리의 다른 글
[데이터분석]데이터 시각화와 의미 (0) | 2023.03.30 |
---|---|
[인공지능 인식]How nomal am i? (2) | 2023.03.20 |
데이터 분석 기획에 대한 이해 (0) | 2021.03.27 |
빅데이터의 이해 (0) | 2021.03.07 |
데이터 베이스에 대한 이해 (0) | 2021.02.28 |