본문 바로가기

인공지능/ML

인공지능 2. Simple Linear Regression

이 글은 edwith - [부스트코스] 텐서플로우로 시작하는 딥러닝 기초의 개인적인 공부기록이므로 오류가 있을 수 있습니다!

Linear Regression

데이터를 가장 잘 대변하는 직선의 방정식을 찾아가는 과정

 

여러 개의 데이터를 대변하고 있는 직선 1개

 

데이터를 대변하는 직선이 하나가 그어져 있지만 우리의 Hypothesis는 여러 개가 존재할 수 있다.

이 직선의 방정식을 H(x) = Wx + b라고 가정해보겠다.

 

cost

직선과 데이터간의 거리가 좁을수록 이 직선은 데이터들을 잘 대변하게 될 것이다.

각 데이터와 직선간의 거리는 H(x) - y로 표현할 수 있으며 이를 cost라고 한다.

 

그러나 여기서 문제가 있다. 모든 데이터의 cost를 전부 더해서 평균을 구해야 모든 데이터와의 관계를 나타낼 수 있게 되는데, cost가 양수가 아니라 음수라면 더하는데 문제가 생겨버린다.

 

그래서 각 cost를 제곱한 뒤 평균을 구하여 총 cost를 표현한다.

 

 

Wxi는 우리의 가설, yi는 실제 값을 나타낸다. 이 둘의 차이를 제곱해 평균을 구한 것이 총 cost가 된다.

H(x) = Wx + b를 대입한다면,

 

 

 

다음과 같이 표현할수도 있겠다.

 

이 cost를 최대한 줄인 H(x)를 찾는 것이 Simple Linear Regression의 목적이다.