Coursera ML class – week01 Introduction

이 포스트는 Coursera Machine Learning 강의(Andrew Ng 교수)를 요약 정리한 것 입니다. 포스트에 사용된 이미지 중 많은 내용은 동영상 강의 자료의 이미지 캡쳐임을 밝힙니다.

Course Home: Coursera Machine Learning

 

Machine Learning(기계학습)이란 데이터를 통해 컴퓨터가 학습을 하고 그 결과로 컴퓨터가 자동으로 문제를 해결할 수 있는 기술을 의미한다. 적용된 사례로는 이메일 스팸 필터링, 쇼핑몰이나 영화 연관 추천시스템, 문자인식, 자연어 처리 등이 있다.

최근들어 머신러닝의 기술이 각광받고 있는 이유 중 하나는 빅데이터이다. 기존 수집하지 못했던 데이터량이 급증하면서 빅데이터 분석에 대한 관심과 요구가 더욱 커지고 있으나, 대용량 데이터로부터 사람이 일일이 의미 있는 정보를 찾아내기는 어려운 일이다. 따라서 기계를 알아서 문제해결을 할 수 있으면 좋겠다는 수요가 자연스럽게 머신러닝에 대한 관심으로 이어지고 있는 것이다.

  1. Machine Learning의 정의
  • Arthur Samuel(1959)

“The field of study that gives computer the ability to learn without being explicitly programmed” – 기계학습이란 컴퓨터에게 명시적으로 프로그램을 하지 않고도 컴퓨터가 학습할 수 있는 능력을 갖는 것

  • Tom Mitchell(1998)

 “A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.”  – 어떤 작업(T)를 하는데 특정한 기준(P)로 측정한 성능이 특정한 경험(E)로 인해 향상되었다면, 그 어떤 작업(T)는 어떤 경험(E)로부터 배웠다.라고 말할 수 있음

위 개념을 스팸필터링에 적용해보자. 우리가 메일함에서 스팸메일을 “스팸”으로 분류(T)하고 있다면, 스팸 메일 분류 알고리즘은 그 “스팸”으로 분류된 스팸메일(E)을 통해 좀 더 정교한 분류 기준을 알 수 있게 될 것이고, 결국 스팸 메일 분류 정확도(P)는 증가하게 될 것이다.

 

  1. Supervised Learning(지도학습)

머신러닝은 크게 Supervised Learning(지도학습)과 Unsupervised Learning(비지도학습)으로 구분된다. 우선 Supervised Learning부터 알아보자.

지도학습은 “right answers” 가 주어진다. 즉, 입력에 대한 “올바른 결과”가 무엇인지 알고리즘에 알려준다. 기계는 주어진 트레이닝 데이터(입력값과 결과값)로부터 학습을 통해 알고리즘을 만든다.

학습알고리즘은 데이터의 속성에 따라 Regression Model 과 classification Model로 나뉜다.

Regression Model은 연속적인 데이터(continuous input data)를 이용하여 결과를 예측할 수 있다.

아래의 집값 예측이 Regression problem의 예시이다. 집의 크기(feet2)에 해당하는 실제 집의 가격이 얼마인지 알려준다. 아래 그래프를 보면 집의 크기가 500 feet2 일 경우 가격은 $100K이다. 주어진 값을 통해 예측모델(straight function)을 그리고, 이를 통해 집의 크기가 1500 feet2 일 경우 집의 가격이 $290K정도임을 예측 할 수 있다. 위의 straight function을 정교하게 하기 위해서는 cost function과 squared error function을 이용하는데 이는 아래에서 설명하도록 하겠다.

1

이에 반해, classification Model은 “연속적인 값”을 예측하는 것이 아니라 입력값이 어떤 분류(discrete output)에 속할 지 확률을 예측하는 것이다. 예를 들어, 어떤 상품을 고객이 구매할 확률 혹은 수신한 메일이 스팸인지 아닌지 등을 예측하는 것이 이에 속한다. 아래의 그래프는 종양의 크기에 따라 악성인지 아닌지 여부에 대한 확률을 구한다. 종양의 크기에 따라 악성종양이면 1(Y), 악성종양이 아니면 0(N)으로 이산(discrete)되어 있는 것을 확인할 수 있다.

2

 

classification Model은 입력값(feature)와 결과값이 반드시 1개가 아니어도 상관없다.

아래 그래프처럼 종양이 악성(붉은색 X)인지 아닌지 구분(대각선 검은 선)하는데 종양의 크기(tumor Size)와 나이(Age)를 학습 변수로 삼을 수도 있고, 결과값이 악성인지 아닌지 뿐만 아니라 악성종양이 아니면 0, 유방암 1기를 1, 유방암 2기를 2, 유방암 말기 3 등으로 나누어 매핑할 수 도 있다.

3

 

  1. Unsupervised Learning(비지도학습)

Supervised learning(지도학습)과 달리unsupervised learning(비지도 학습)은 명확한 정답이 존재하지 않기 때문에 데이터들을 어떻게 “clustering”할 것인지에 대한 문제이다.

아래 그림을 볼 수 있듯이, Supervised Learning은 데이터의 결과값이 정해져 있기 때문에(O, X) 새로 들어온 값(?)에 대한 예측값(O)이 무엇인지를 쉽게 유추할 수 있다. 그러나 Unsupervised Learning은 데이터가 처음부터 구분되는 것이 아니라 어느 정도의 양이 주어졌을 때 동일한 위치에 있는 것들을 모아서 그룹(cluster)으로 구별한다. 따라서 Unsupervised Learning은 명확한 정답이 존재하지 않는다.

4

 

구글은 뉴스기사를 크롤링하고 같은 주제로 그루핑하여 독자에게 보여준다. 각각의 기사에는 어떤 분류에 해당 기사가 분류되어야 하는 정보가 없지만 기사에 들어있는 단어들이 나타나는 빈도 및 확률 등을 가지고 학습하여 기사를 분류(clustering)한다.

5

 

Unsupervised Learning은 주로 컴퓨터 클러스터링, 소셜 네트워크 분석, 제품 분류(자동 카테고라이징) , 마켓 세그먼트 등에 사용된다.

6

 

Course Home: Coursera Machine Learning

Andrew Ng 교수님 소개: https://www.coursera.org/instructor/andrewng

Advertisement

One thought on “Coursera ML class – week01 Introduction

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.