[Brightics 서포터즈] 팀 분석 프로젝트 (2편)

히히 벌써 팀 프로젝트 두 번째 편입니다.

첫 번째 편에는 프로젝트 기획 방향에 관해

소개해 드렸었는데요!

오늘은 분석 프로젝트의 대주제인

우주선 타이타닉호 승객 예측을 위해

데이터 전처리 및 EDA를 해볼 예정입니다.

본격적인 전처리를 시작하기 전에,

데이터에 관해 자세히 소개해 드릴게요!

[데이터셋 확인]

데이터는 아래 주소에!

https://www.kaggle.com/competitions/spaceship-titanic/data

데이터는 총 3개로 구성되어 있어요.

train	학습 데이터
test	평가 데이터
sample_submission	kaggle 제출 파일

다음은 변수를 확인해 볼게요.

이번 데이터는 지금까지 진행했던 분석 중

변수가 가장 많았어요. 총 14개!

PassengerId	탑승객에 대한 고유 ID
HomePlanet	탑승객이 출발한 행성
CryoSleep	일시 중단 옵션 여부
Cabin	객실 번호
Destination	목적지
Age	나이
VIP	VIP 서비스 비용 지불 여부
RoomService	룸서비스 지불 금액
ShoppingMall	푸드코트 지불 금액
Spa	스파 지불 금액
VRDeck	VR 데크 청구 금액
Name	이름
Transported	다른 차원이동 여부

범주형 변수

PassengerId, HomePlanet, CryoSleep(T/F), Cabin

Destination, VIP(T/F), Name, Transported(Target T/F)

(cabin, name은 텍스트 데이터)

연속형 변수

Age, RoomService, FoodCourt,

ShoppingMall, Spa, VRDeck

[EDA 및 결측치 처리]

데이터셋을 확인한 후 팀원분들과

변수를 나누어 데이터를 더 자세히

살펴보는 시간을 가졌어요.

각자 맡은 변수에서 결측치, 이상치,

분포 편중, 중복 컬럼 등이 있는지

조사해서 공유하였답니다.

제가 맡은 변수는 age, destination, cabin

변수였는데요. 변수의 기본적인 특징을

확인하기 위해서 아래와 같은 함수들을

이용해 간단하게 분석하였습니다.

히스토그램을 그려보고, min, max, agv, 0값, 그리고

결측치 여부 등 기본적인 특징을 알아보았어요.

또 브라이틱스내의 차트 기능을 이용해

EDA도 함께 진행해 보았답니다.

상관계수 분석도 진행하였어요.

이렇게 각자 변수들을 파악한 후

회의를 통해 특징들을 공유했어요.

회의를 진행하며 결측치를 어떻게 처리할

것인지에 관한 아이디어를 나누었습니다.

여기서 한 가지 알게 된 팁은 바로

캐글 내의 코드 카테고리입니다.

빨간 박스로 체크된 부분을 클릭하면

다른 사람들의 분석 과정을 볼 수 있답니다.

이 기능을 활용해 더 나은 모델을 구상하기 위한

아이디어를 참고할 수 있었어요!

여러 의견을 종합해 최종적으로

1. 나이 변수를 범주화하고,

2. 결측치 최빈값 혹은 평균값 대치,

3. 범주형 변수 불균형 데이터

로그 변환 과정을 진행하기로 했어요.

현재 범주형 변수 불균형 데이터까지

진행된 상황이고, 다음 회의 시간까지

데이터를 조금 더 살펴보며 특정한 패턴을

찾아 결측치를 처리하는 2차 전처리 과정을

진행하기로 했답니다!

그러니 다음 주에는 2차 전처리 과정과

모델링이 진행되겠죠?

그럼 다음 주에 만나요 ♡

*본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.

'삼성 SDS Brightics 서포터즈 3기' 카테고리의 다른 글

[Brightics 서포터즈] 팀 분석 프로젝트 (마지막 편) (0)	2022.09.06
[Brightics 서포터즈] 팀 분석 프로젝트 (3편) (0)	2022.08.31
[Brightics 서포터즈] 팀 분석 프로젝트 (1편) (0)	2022.08.16
[Brightics Studio] 영화 데이터로 군집 분석 진행하기(K-means_개인미션③) (0)	2022.07.12
[Brightics studio] 발 사이즈로 키 예측하기 _ 개인분석(2) (0)	2022.07.05

물구나무 노트