본문 바로가기

삼성 SDS Brightics 서포터즈 3기

[Brightics 서포터즈] 팀 분석 프로젝트 (마지막 편)

안녕하세요! 오늘은 우주선 타이타닉호 승객

예측 프로젝트 마지막 편으로 찾아왔어요.

잠시 지금까지 했던 팀 프로젝트

포스팅 글을 요약해 보도록 할게요!

1편 - 프로젝트 소개

2편 - 데이터셋 탐색, EDA, 1차 전처리

3편 - 2차 전처리, 모델링

이렇게 3주 동안 팀 프로젝트가 진행됐는데요.

지난 시간에 모델링까지 끝났기 때문에

오늘은 모델링 그 후!를 살펴보는

시간을 가져보도록 하겠습니다.


 

<변수별 중요도>

먼저 사용했던 모델의 (랜덤 포레스트, XGB)

영향인자를 확인해 보겠습니다.

영향인자는 이번 프로젝트의 타겟 변수인

Transported 예측에 가장 기여를 많이 한

변수를 의미합니다.

영향인자는 브라이틱스 스튜디오에서

쉽게 확인이 가능한데요.

Random Forest Classification Train

함수를 적용한 뒤 Run을 눌러주시면

결과 칸에 아래와 같은 이미지가 뜹니다,

Random Forest Classification Train Result

부분을 확인하면 파라미터와 영향인자를

확인할 수 있답니다!

랜덤 포레스트 모델에서 Transported 예측에

가장 기여를 많이 한 변수는 Passengerld Group입니다.

그다음으로는 servie 중 foodcourt와 shoppingmall

변수를 합한 service_FS가 높게 나왔네요!

다음으로는 XGB Classification Train 모델은

어떤 또 다른 결과를 보여주고 있을지

확인해 보겠습니다.

XGB 모델에서는 랜덤 포레스트와

조금 다른 결과가 나왔는데요!

1위는 동일하게 Passengerld Group이지만

2위는 Service_RSV이네요.

이번 분석을 진행하며 처음으로 변수별 중요도를

파악해 보았는데요. 모델마다 변수별 중요도가

다르게 적용되는 게 흥미로운 지점인 것 같아요.

 

<모델 성능 확인>

다음은 4팀에서 만든 모델 성능을

확인해 보도록 하겠습니다.

이번 프로젝트에서 모델 성능을 확인하기

위해서는 캐글에 직접 제출해야 했는데요.

이를 위해 0과 1으로 나온 예측 값을

T/F 형식으로 바꾸어 주었어요.

이 부분은 파이썬 스크립트를 활용하였습니다.

이렇게 변환한 파일을 캐글에 제출해 주었는데요!

결과는 아래와 같았습니다.

 

랜덤 포레스트 ⭢ 0.49286

XGBBOOST ⭢ 0.49427

이번 분석에는 XGB 모델이 더 높은 예측

정확성을 보여주었네요! 위와 같은 결괏값은

전체 탑승 객 중 약 절반에 가까운 탑승객의

수송 여부를 맞췄다는 걸 나타냅니다.

코드 공유를 해주셨던 다른 분들의

점수를 슬쩍 살펴보니 상당히 높은 정도의

예측을 성공하신 분들이 많더라고요!

팀원 분들과 이야기를 나눠 본 결과,

지금보다 성능을 더 올리기 위해서는

추가적인 파생 변수 생성, 스케일링,

모델 앙상블 등 다양한 시도가

필요할 것 같다는 이야기가 나왔었어요.

만일 다음 분석을 진행하게 된다면

팀 프로젝트를 진행하면서 보완해야 겠다고

생각한 것들을 진행해보면 좋을 것 같다는

생각이 마구마구 들었답니다.


타이타닉 호 탑승객 예측 프로젝트는

이렇게 마무리 되었습니다!

처음으로 캐글에 점수도 올려보고,

나온 점수로 더 발전 가능성까지 검토를 해보니

정말이지 얻어 간 게 많은 프로젝트라

생각이 들었답니다 ㅎ.ㅎ

참고로 이번 포스팅은 멘토님이 보내주신

피드백을 바탕으로 작성되었답니다.

감사합니다 ♡

벌써 마지막 팀 분석 프로젝트 포스팅이라니

아쉬운 기분이 들기도 하지만! 다음 주부터는

또다시 재밌는 주제로 돌아올 것이니 너무

아쉬워하지 않겠어요. 그럼 모두 빠잉

 

*본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.