목록전체 글 (19)
천선생의 삶
안녕하세요. 천선생입니다. 교차검증 (Cross Validation) 이라는 말, 한번쯤은 들어보신 적 있으실텐데요. 우리는 예측모형을 만들고 그 정확도를 측정하기 위해서 내부적인 검증데이터 (Validation Set)을 생성하게 됩니다. 이를 통하여 실제 예측하게 될 미래 데이터(Test Set)에 얼마나 근접하게 적합되었는지를 확인할 수 있습니다. 정확도 측정의 과정을 확인하시려면 이전의 포스팅 [Kaggle] 타이타닉 생존자 예측 3부 - Modeling 을 참조하세요! [Kaggle] 타이타닉 생존자 예측 3부 - Modeling 안녕하세요. 천선생입니다. 1부와 2부를 순서대로 따라오셨다면 이제 이런 생각이 강하게 들 것이라고 생각합니다. '그래서 예측은 언제하는 데?' 이번 포스트는 바로 최..
안녕하세요. 천선생입니다. 데이터 핸들링(Data Handling) 라는 말, 많이 들어보셨나요? 분석을 하기 위해서는, 주어진 데이터를 올바르게 조작하는 방법을 알아야 합니다! 우리는 이것을 데이터 핸들링이라고 부릅니다. 오늘은 데이터 핸들링에서 제가 가장 많이 사용하는 dplyr 패키지를 소개시켜드리겠습니다. - Why dplyr? 앞에서 간단히 설명드렸듯이, 데이터 핸들링이란 말그대로 데이터를 이리저리 손으로 굴려보는 것을 뜻합니다. 범주별로 묶어서 연산을 한다던지, 변수끼리의 연산으로 새로운 변수를 만들어본다던지 하는 듯의 행위 말이죠. 물론, 기존에 알고계신 함수나 패키지를 활용하여 핸들링을 해도 됩니다! 그러나 전처리를 위한 패키지 dplyr을 활용하면 조금 더 쉽게 접근할 수 있을 것입니다...
안녕하세요. 천선생입니다. 1부와 2부를 순서대로 따라오셨다면 이제 이런 생각이 강하게 들 것이라고 생각합니다. '그래서 예측은 언제하는 데?' 이번 포스트는 바로 최종아닌 최종단계, Modeling에 대해 다루도록 하겠습니다. - Modeling? Modeling이란, 말그대로 정제한 데이터를 예측모형에 학습시켜 원하는 결과를 찾아내는 것을 의미합니다. 이번 데이터에서 진행하게 될 학습은 지도학습의 일종인 로지스틱 회귀모형입니다. 용어들이 난무하기 이전에 간단히 코드를 통하여 이해해보도록 하겠습니다. # 학습과정 이해하기 # Feature Engineering을 완료한 데이터의 모습 확인 str(data) # 'data.frame':1309 obs. of 13 variables: # $ Passenge..
안녕하세요. 천선생입니다. 1부 시리즈에서는 모든 변수들에 대한 탐색을 진행하고, 특징을 파악하는 EDA를 간단히 진행했습니다. 이번 포스트에서는, 파악한 특징을 기반으로 Feature Engineering 을 진행하도록 하겠습니다! - Feature Engineering IDEA 정리 Feature Engineering IDEA 1. Age 특정 나이대, 즉 영유아의 생존률이 상대적으로 굉장히 높은 것을 확인할 수 있었습니다. 영유아 여부에 따른 Binomial variable을 만들 수 있을 것 같습니다. Feature Engineering IDEA 2. SibSp & Parch 동승객에 대한 정보는, 곧 동승그룹에 대한 정보로 치환이 가능합니다. 즉, SibSp + Parch + 1(본인) = 동승..
안녕하세요. 천선생입니다. 지난 포스트에서는 Sex, Age, Sibsp / Parch 변수에 대한 탐색을 다뤘는데요. 지나치셨다면 아래 링크를 통하여 확인하시길 바랍니다! https://cheon9.tistory.com/21 [Titanic] 타이타닉 분석하기 1부 - EDA(2) 안녕하세요. 천선생입니다. 지난 포스트에서는 Survived, PassengerId, Pclass, Name 변수에 대한 탐색을 다뤘는데요. 지나셨다면 링크를 통하여 확인하시길 바랍니다! https://cheon9.tistory.com/20 [Titanic].. cheon9.tistory.com 이번 포스트에서는 Ticket, Fare, Cabin, Embarked 변수에 대한 탐색을 다루도록 하겠습니다. - Ticket :..
안녕하세요. 천선생입니다. 데이터 분석을 공부할수록, 많이 접하게 되는 단어가 있습니다. 바로 시각화 인데요. 오늘은 R을 통해서 시각화를 할 때, 가장 많이 사용되는 패키지인 ggplot2에 대해서 알아보겠습니다. - 시각화? 시각화란 단순하게 말하면 데이터를 한눈에 이해할 수 있는 그림을 그리는 것을 뜻합니다. R에서는 기본적으로 Gragraphics 라는 패키지를 제공하며, 이 패키지를 통하여 이미 수많은 시각화를 할 수 있습니다. Gragraphics 에 내장된 함수를 통하여, cars 데이터(내장 데이터)의 시각화를 해보겠습니다. # cars 데이터의 구조를 확인해보겠습니다. str(cars) # 'data.frame':50 obs. of 2 variables: # $ speed: num 4 4..
안녕하세요. 천선생입니다. 지난 포스트에서는 Survived, PassengerId, Pclass, Name 변수에 대한 탐색을 다뤘는데요. 지나셨다면 링크를 통하여 확인하시길 바랍니다! https://cheon9.tistory.com/20 [Titanic] 타이타닉 분석하기 1부 - EDA(1) 안녕하세요. 천선생입니다. 타이타닉 분석하기 1부에서는 각 변수를 탐색하며 데이터에 대한 이해도를 쌓고, 전체적인 분석에 대한 계획을 짜기 위하여 진행하는 EDA 에 대한 설명을 하도록 하겠습니다. 이번 포스.. cheon9.tistory.com 이번 포스트에서는 Sex, Age, Sibsp / Parch 변수에 대한 탐색을 다루도록 하겠습니다. - Sex : 성별 Sex 변수는 각 승객의 성별을 의미합니다. ..
안녕하세요. 천선생입니다. Predicting Titanic Survivors 1부에서는 각 변수를 탐색하며 데이터에 대한 이해도를 쌓고, 전체적인 분석에 대한 계획을 짜기 위하여 진행하는 EDA 에 대한 설명을 하도록 하겠습니다. 이번 포스트에서 우리의 목표는 다음과 같습니다. 1. 각 데이터의 성질 파악하기 2. 데이터 내부에 존재하는 NA값(결측값) 확인과 올바른 대치방법 고안 3. 모델링 이전에 진행하게 될 Feature Engineering 계획수립 - NA값 처리 탐색하기 이전에, 데이터 내부에 존재하는 NA(결측값)은 없는지 확인하도록 하겠습니다. 만약 결측값이 존재한다면, 사용자 함수를 정의하여 각 열의 평균값으로 대치하도록 하겠습니다. # 각 변수들에 존재하는 NA value의 수와 해당..