이 글은 edwith - [부스트코스] 텐서플로우로 시작하는 딥러닝 기초의 개인적인 공부기록이므로 오류가 있을 수 있습니다!
Linear Regression
데이터를 가장 잘 대변하는 직선의 방정식을 찾아가는 과정
데이터를 대변하는 직선이 하나가 그어져 있지만 우리의 Hypothesis는 여러 개가 존재할 수 있다.
이 직선의 방정식을 H(x) = Wx + b라고 가정해보겠다.
cost
직선과 데이터간의 거리가 좁을수록 이 직선은 데이터들을 잘 대변하게 될 것이다.
각 데이터와 직선간의 거리는 H(x) - y로 표현할 수 있으며 이를 cost라고 한다.
그러나 여기서 문제가 있다. 모든 데이터의 cost를 전부 더해서 평균을 구해야 모든 데이터와의 관계를 나타낼 수 있게 되는데, cost가 양수가 아니라 음수라면 더하는데 문제가 생겨버린다.
그래서 각 cost를 제곱한 뒤 평균을 구하여 총 cost를 표현한다.
Wxi는 우리의 가설, yi는 실제 값을 나타낸다. 이 둘의 차이를 제곱해 평균을 구한 것이 총 cost가 된다.
H(x) = Wx + b를 대입한다면,
다음과 같이 표현할수도 있겠다.
이 cost를 최대한 줄인 H(x)를 찾는 것이 Simple Linear Regression의 목적이다.
'인공지능 > ML' 카테고리의 다른 글
인공지능 6. Logistic Regression (0) | 2020.03.30 |
---|---|
인공지능 5. Multi Variable Linear Regression (0) | 2020.03.27 |
인공지능 4. Simple Cost Function / Gradient Descent (0) | 2020.03.26 |
인공지능 3. Simple Linear Regression 구현 (0) | 2020.03.24 |