[Brightics studio] 노코드 AI 오픈소스 브라이틱스로, 광고 클릭 여부 예측하기 (모델링 ④)

네 번째 개인 분석 포스팅을 들고 왔어요.
오늘은 모델링 과정을 진행해 보려 합니다.
물론 브라이틱스 스튜디오를 활용해서요.
본격적으로 시작하기에 앞서, 얼마 전
재밌게 읽은 기사 하나를 공유해 드리고 싶은데요.
기사 헤드라인에서 알 수 있듯
최근 노코드, 로우코드가 매우
주목받고 있습니다.
브라이틱스 또한 워크플로우 기반의
노코드 오픈소스이기 때문에 접근하기에
매우 좋고 사용 또한 편리합니다!
최근 흐름에 맞춰 브라이틱스 스튜디오를
이용해 보신다면 매우. 매우. 좋을 것 같습니다
더불어 브라이틱스를 활용해 제작한
홍보 영상이 나왔어요. 다들 한 번씩
클릭해 주시고 좋아요도 눌러주시면
진짜 매우.. 감사..
그럼 본격적으로 예측을 위한
모델링 과정을 밟아보도록 할게요!
라벨 인코딩
분석을 위해 범주형 변수들을
라벨 인코딩 해줄게요.
이 과정은 문자를 기계가 이해할 수 있는
언어로 바꾸는 과정인데요.
주로 one hot encoder와
label encodr를 이용해요.
두 기능에 관한 좋은 자료가 있어
링크로 첨부할게요!
제가 변환하려는 country와 city는 범주가
많은 편에 속해 one hot encoder가 아닌
label encoder를 이용했어요.

변수 선택

이후 select Column을 이용해
필요한 변수들을 선택해 주었어요.
Split Data

학습을 위해 데이터를 split data를 이용해
train data와 test data로 나누어 주었어요.
seed는 1234로 고정해 주었어요.
XGB Regression
먼저 첫 번째 모델로
xgb를 이용해 주었어요.
먼저 xgb regression train 함수를 이용해
학습을 시켜주었어요.

그리고 XGB Regression Predict
함수를 통해 test 데이터의
광고 클릭 여부를 보았어요.

그리고 결과가 나왔는데,
문제가 생겼어요 ㅎㅎ
클릭 여부이기 때문에 0혹은 1으로
나와야 하는 예측값이 그렇지 않게
나오고 있어요.
이유가 뭘까요..
이전 진행했던 플로우를 확인해가며
이유를 찾고 있지만 아무래도 모르겠어서
(뭘 엄청 냅다 잘못했을까 봐 걱정이에요)
요번 포스팅은 우선 여기까지 마무리하겠습니다.
여러가지 모델을 비교해보는 포스팅을
진행해보려했는데 아쉬워요.
다음 포스팅에 문제를 해결해 나타나도록 하겠습니다.
*본 포스팅은 삼성SDS Brightics 서포터즈 3기 활동의 일환으로 작성하였습니다.