본문 바로가기

삼성 SDS Brightics 서포터즈 3기

[Brightics 서포터즈] 팀 분석 프로젝트 (2편)

 

히히 벌써 팀 프로젝트 두 번째 편입니다.

첫 번째 편에는 프로젝트 기획 방향에 관해

소개해 드렸었는데요!

오늘은 분석 프로젝트의 대주제인

우주선 타이타닉호 승객 예측을 위해

데이터 전처리 및 EDA를 해볼 예정입니다.

본격적인 전처리를 시작하기 전에,

데이터에 관해 자세히 소개해 드릴게요!

[데이터셋 확인]

데이터는 아래 주소에!

https://www.kaggle.com/competitions/spaceship-titanic/data

데이터는 총 3개로 구성되어 있어요.

train
학습 데이터
test
평가 데이터
sample_submission
kaggle 제출 파일

다음은 변수를 확인해 볼게요.

이번 데이터는 지금까지 진행했던 분석 중

변수가 가장 많았어요. 총 14개!

PassengerId
탑승객에 대한 고유 ID
HomePlanet
탑승객이 출발한 행성
CryoSleep
일시 중단 옵션 여부
Cabin
객실 번호
Destination
목적지
Age
나이
VIP
VIP 서비스 비용 지불 여부
RoomService
룸서비스 지불 금액
ShoppingMall
푸드코트 지불 금액
Spa
스파 지불 금액
VRDeck
VR 데크 청구 금액
Name
이름
Transported
다른 차원이동 여부

범주형 변수

PassengerId, HomePlanet, CryoSleep(T/F), Cabin

Destination, VIP(T/F), Name, Transported(Target T/F)

(cabin, name은 텍스트 데이터)

연속형 변수

Age, RoomService, FoodCourt,

ShoppingMall, Spa, VRDeck

[EDA 및 결측치 처리]

데이터셋을 확인한 후 팀원분들과

변수를 나누어 데이터를 더 자세히

살펴보는 시간을 가졌어요.

각자 맡은 변수에서 결측치, 이상치,

분포 편중, 중복 컬럼 등이 있는지

조사해서 공유하였답니다.

제가 맡은 변수는 age, destination, cabin

변수였는데요. 변수의 기본적인 특징을

확인하기 위해서 아래와 같은 함수들을

이용해 간단하게 분석하였습니다.

히스토그램을 그려보고, min, max, agv, 0값, 그리고

결측치 여부 등 기본적인 특징을 알아보았어요.

또 브라이틱스내의 차트 기능을 이용해

EDA도 함께 진행해 보았답니다.

 
 

상관계수 분석도 진행하였어요.

 

 

이렇게 각자 변수들을 파악한 후

회의를 통해 특징들을 공유했어요.

회의를 진행하며 결측치를 어떻게 처리할

것인지에 관한 아이디어를 나누었습니다.

여기서 한 가지 알게 된 팁은 바로

캐글 내의 코드 카테고리입니다.

빨간 박스로 체크된 부분을 클릭하면

다른 사람들의 분석 과정을 볼 수 있답니다.

이 기능을 활용해 더 나은 모델을 구상하기 위한

아이디어를 참고할 수 있었어요!

여러 의견을 종합해 최종적으로

1. 나이 변수를 범주화하고,

2. 결측치 최빈값 혹은 평균값 대치,

3. 범주형 변수 불균형 데이터

로그 변환 과정을 진행하기로 했어요.

현재 범주형 변수 불균형 데이터까지

진행된 상황이고, 다음 회의 시간까지

데이터를 조금 더 살펴보며 특정한 패턴을

찾아 결측치를 처리하는 2차 전처리 과정을

진행하기로 했답니다!

그러니 다음 주에는 2차 전처리 과정과

모델링이 진행되겠죠?

그럼 다음 주에 만나요 ♡

 

*본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.