목록Kaggle (7)
천선생의 삶
안녕하세요. 천선생입니다. 1부와 2부를 순서대로 따라오셨다면 이제 이런 생각이 강하게 들 것이라고 생각합니다. '그래서 예측은 언제하는 데?' 이번 포스트는 바로 최종아닌 최종단계, Modeling에 대해 다루도록 하겠습니다. - Modeling? Modeling이란, 말그대로 정제한 데이터를 예측모형에 학습시켜 원하는 결과를 찾아내는 것을 의미합니다. 이번 데이터에서 진행하게 될 학습은 지도학습의 일종인 로지스틱 회귀모형입니다. 용어들이 난무하기 이전에 간단히 코드를 통하여 이해해보도록 하겠습니다. # 학습과정 이해하기 # Feature Engineering을 완료한 데이터의 모습 확인 str(data) # 'data.frame':1309 obs. of 13 variables: # $ Passenge..
안녕하세요. 천선생입니다. 1부 시리즈에서는 모든 변수들에 대한 탐색을 진행하고, 특징을 파악하는 EDA를 간단히 진행했습니다. 이번 포스트에서는, 파악한 특징을 기반으로 Feature Engineering 을 진행하도록 하겠습니다! - Feature Engineering IDEA 정리 Feature Engineering IDEA 1. Age 특정 나이대, 즉 영유아의 생존률이 상대적으로 굉장히 높은 것을 확인할 수 있었습니다. 영유아 여부에 따른 Binomial variable을 만들 수 있을 것 같습니다. Feature Engineering IDEA 2. SibSp & Parch 동승객에 대한 정보는, 곧 동승그룹에 대한 정보로 치환이 가능합니다. 즉, SibSp + Parch + 1(본인) = 동승..
안녕하세요. 천선생입니다. 지난 포스트에서는 Sex, Age, Sibsp / Parch 변수에 대한 탐색을 다뤘는데요. 지나치셨다면 아래 링크를 통하여 확인하시길 바랍니다! https://cheon9.tistory.com/21 [Titanic] 타이타닉 분석하기 1부 - EDA(2) 안녕하세요. 천선생입니다. 지난 포스트에서는 Survived, PassengerId, Pclass, Name 변수에 대한 탐색을 다뤘는데요. 지나셨다면 링크를 통하여 확인하시길 바랍니다! https://cheon9.tistory.com/20 [Titanic].. cheon9.tistory.com 이번 포스트에서는 Ticket, Fare, Cabin, Embarked 변수에 대한 탐색을 다루도록 하겠습니다. - Ticket :..
안녕하세요. 천선생입니다. 지난 포스트에서는 Survived, PassengerId, Pclass, Name 변수에 대한 탐색을 다뤘는데요. 지나셨다면 링크를 통하여 확인하시길 바랍니다! https://cheon9.tistory.com/20 [Titanic] 타이타닉 분석하기 1부 - EDA(1) 안녕하세요. 천선생입니다. 타이타닉 분석하기 1부에서는 각 변수를 탐색하며 데이터에 대한 이해도를 쌓고, 전체적인 분석에 대한 계획을 짜기 위하여 진행하는 EDA 에 대한 설명을 하도록 하겠습니다. 이번 포스.. cheon9.tistory.com 이번 포스트에서는 Sex, Age, Sibsp / Parch 변수에 대한 탐색을 다루도록 하겠습니다. - Sex : 성별 Sex 변수는 각 승객의 성별을 의미합니다. ..
안녕하세요. 천선생입니다. Predicting Titanic Survivors 1부에서는 각 변수를 탐색하며 데이터에 대한 이해도를 쌓고, 전체적인 분석에 대한 계획을 짜기 위하여 진행하는 EDA 에 대한 설명을 하도록 하겠습니다. 이번 포스트에서 우리의 목표는 다음과 같습니다. 1. 각 데이터의 성질 파악하기 2. 데이터 내부에 존재하는 NA값(결측값) 확인과 올바른 대치방법 고안 3. 모델링 이전에 진행하게 될 Feature Engineering 계획수립 - NA값 처리 탐색하기 이전에, 데이터 내부에 존재하는 NA(결측값)은 없는지 확인하도록 하겠습니다. 만약 결측값이 존재한다면, 사용자 함수를 정의하여 각 열의 평균값으로 대치하도록 하겠습니다. # 각 변수들에 존재하는 NA value의 수와 해당..
안녕하세요. 천선생입니다. 이번 포스트에서는 분석을 시작하기 이전에 확인해야 할 것들에 대해서 짧게 설명하도록 하겠습니다. 분석 목적이 무엇인지, 무엇을 분석할 것인지, 어떻게 분석할 것인지에 대한 명확한 정의가 필요할 것 같습니다. 1. 분석 목적 분석의 목적이 무엇인가에 대해서 고민할 필요가 있습니다. 분석을 하다보면 '뭘 하고 있었던 거지?' 하는 순간이 있는데 그럴때마다 확인할 수 있는 지표를 세우는 겁니다! Kaggle은 친절하게도, 데이터를 통하여 주최측이 원하는 목적을 명시해줍니다. '타이타닉 데이터의 승객 정보를 활용하여 생존여부를 예측해본다' 라는 목적을 설정했습니다. 2. 무엇을? 이제 우리는 어떤 승객 정보를 활용할 것인지에 대한 고민을 시작할 필요가 있습니다. 이러한 고민을 해소하기..
안녕하세요. 천선생입니다. 데이터 분석을 공부하다보면, 여러 데이터들을 만나고 분석해보게 되는데요. 이번 포스트에서는 Kaggle과 타이타닉 데이터에 대해서 간단히 알아보도록 하겠습니다. - Kaggle? 데이터 분석에 관심을 갖고 있는 사람이라면 한번쯤은 들어봤을 Kaggle(캐글)은 말하자면 분석대회 플랫폼입니다. 기업 혹은 단체에서 분석을 위한 데이터를 제공하면 누구나 접근하여 데이터분석을 할 수 있고, 서로의 결과 혹은 분석과정을 공유할 수 있는 커뮤니티의 성격을 띄고 있습니다. 캐글을 통하여 분석을 공부하는 개인은 쉽게 만날수 없던 데이터를 만나게 되고 이를 분석하는 경험을 할 수 있습니다! - Titanic? 이 카테고리에서 캐글의 대표적인 데이터로 불리는 타이타닉 데이터로 생존자를 예측하는 ..