Data Science 6

귀무가설, 대립가설

귀무가설, 대립가설 귀무가설의 정의는 ‘모집단의 특징이 옳다고 제안하는 잠정적인 주장’이며, 대립가설은 이를 반대하는 주장이다. 좀 더 쉽게 풀이하자면, 귀무가설은 누구나 사실이라고 여기고 있는 것이고, 대립가설은 귀무가설을 반박하기 위한 가설로써 연구자의 분석목적이 된다. 대립가설은 양측대립가설과 단측대립가설이 있다. 단측대립가설은 독립변수와 결과변수와의 관련성을 검정할 때 그 방향이 미리 어느 한쪽으로 결정되어 있는 경우이다. 양측대립가설은 독립변수와 종속변수 간에 관련성 혹은 차이의 존재 여부에만 관심을 가지며, 그 방향은 따지지 않는 가설이다.

로지스틱 회귀분석(Logistic Regression)

0. Intro 로지스틱 회귀분석은 분류 분석에 속하는 분석으로, 종속 변수가 범주형인 경우 새로운 자료에 대한 분류 목적으로 사용한다. 1.1 분류 분석의 유형들 1) 신경망 모형 (Artificial Neural Network) 2) 의사결정나무 (Decision Tree) 3) 앙상블 모형 (Ensenble) 4) 규칙기반 (Rule-Based) 5) 사례기반 (Case-Based) 6) 인접 이웃 (Nearest NEighbor) 7) 베이즈 분류 (Bayesian) 8) 서포트 벡터 머신 (SVM, Support Vector Machine) 9) 유전자 알고리즘 등이 있다. 1. 로지스틱 회귀모형 (Logistic Regression) 반응변수가 범주형인 경우에 적용하는 모형이다. 선형회귀분석이..

KNN (K-Nearest Neighbor)

0. Intro KNN이란 k의 개수만큼 주변의 샘플 정보를 이용해서 새로운 관측치의 종속변수(y값)을 예측하는 지도학습 1. KNN (K-Nearest Neighbor) 1.1 KNN (K-Nearest Neighbor) ? 위 그림에서, 빨간색과 파란색의 종속변수의 범주가 있습니다. 일반적으로, 새로운 관측치인 녹색을 분류해야 하는데, 실선으로 k가 3일 때에는 빨강으로, 점선으로 k가 5일 때에는 파란색으로 판별합니다. 가까운 곳에 위치한 것에 따라 가중치(Weight)를 많이 주는 방법도 있습니다. 그리고, KNN은 종속 변수가 어떻게 되는가에 따라 방법이 달라집니다. 범주형 변수의 경우 가장 많이 나타나는 범주로 y를 추정하고, 연속형 변수의 경우 KNN의 평균으로 y를 추정합니다. 중요한 것은..

데이터로 좋은 결정 내리는 방법, 의사결정 나무

0. Intro ‘특정 질병에 가장 영향을 크게 미치는 유전자가 무엇인지 알 수 있을까?’, ‘카드사에서 고객의 특성에 맞춰 어떤 혜택이 가장 적합할지 어떻게 파악할 수 있을까?’ ​ 이러한 질문들에 대답할 수 있는 기술이 바로 ‘알고리즘’입니다. 알고리즘이란 어떠한 문제를 논리적으로 해결하기 위한 절차를 말하는데요. 이러한 알고리즘을 연구하는 분야를 머신러닝이라고 부릅니다. 머신러닝의 작업 분야는 크게 지도학습과 자율학습으로 나뉘죠. 이 중 지도학습은 다시 분류와 예측으로 나누어지는데, 알고리즘은 분류와 예측 작업을 통해 데이터로부터 의미 있는 결론을 이끌어내는 역할을 합니다. 이러한 알고리즘은 빅데이터의 발달과 함께 매우 빠르게 발전하고 있습니다. ⓒPixabay 구글의 데이터 분석 커뮤니티 캐글(K..

인공 신경망의 구조

0. Intro 텐서플로(Tensorlfow) 2.0 기반의 고수준 API인 케라스(Keras)를 중심으로 딥러닝 모델을 구축하고 훈련하는 방법을 소개한다. 케라스는 딥러닝 모델을 간단한 함수 형태로 구현했기 때문에 배우기 쉽고, 대부분의 딥러닝 문제를 해결할 수 있을 만큼 성능도 뛰어난 편이다. ​ 인공 신경망은 뇌 신경계의 정보 처리 구조를 모방하여 만든 컴퓨터 계산 알고리즘이다. 뇌 신경은 수많은 신경세포(뉴런, neuron)들이 연결되어 정보를 처리하고 전달한다. 신경세포는 신호를 입력받아 다음 신경세포에 출력 형태로 연결한다는 점에서 입력과 출력을 갖는 함수와 비슷하다. 인공 신경망은 이처럼 수많은 신경세포가 연결되는 뇌 신경계와 같이 수많은 함수를 서로 연결하여 복잡한 정보를 처리하는 네트워크..