반응형 딥러닝 머신러닝 데이터 분석/TitanicWithPandas2 [ Pandas ] 데이터 분석을 통한 Titanic 생존자 예측 - 2 // 각 열에 따른 생존 확률 Survived는 살았을 경우 1, 죽었을 경우 0으로 표시된다. 이 점을 잘 생각하면 어떤 조건 하에서 전체 데이터의 mean 값을 구하면 전체 데이터의 수로 생존자의 수를 나눈 값이 된다. 이 값은 단순히 mean 값이 아니고 생존율이 된다. 이 과정에서 원문 작성자가 중요하게 보는 부분은 바로 "확률이 서로 유의미하게 다른 분류"를 찾아내는 작업이었다. 그러니까 정말 이 카테고리의 값이 더 높거나 더 낮으면 생존확률이 더 높아지던지 낮아지던지 하는가 하는 것이다. 유의미한 correlation을 본 것이라고 생각할 수도 있는데 사실 나도 여기서는 좀 의아했던 것이 단순히 correlation을 본 것이 아니라 구분 가능한 기준으로 확률이 분배되는지를 확인하는 작업이라고.. 2021. 7. 19. [ Pandas ] 데이터 분석을 통한 Titanic 생존자 예측 - 1 // 타이타닉? 타이타닉은 이제 잘 모르는 세대가 생겼을 것같은데 일단은 엄청 큰 여객선의 이름이다. 이 배는 당시의 하이테크놀러지를 모두 적용하여 '절대 침몰하지 않는 배'라는 믿음이 있었다. 물론 당연히 침몰했다. 그러니까 생존자 데이터를 분석하는 거고... 아무튼 영화로도 나올 만큼 엄청난 규모의 세계적인 이슈였고 무엇보다 큰 인명피해를 동반한 끔찍한 사고였다. 이 배가 출항할때 탑승자들의 이름과 신상등을 적어둔 기록이 있는데 배가 큰 만큼 이 기록이 분석 가능할 정도의 규모가 되고 사회의 각 계층이 탑승하면서 다양한 데이터가 만들어졌다. 그래서 우리는 이 배에 탑승한 사람들의 데이터들이 가지는 연관성으로부터 이 사람이 살았는 지 죽었는지 분석할 수 있어 데이터 분석의 입문으로 굉장히 많이 사용되고.. 2021. 7. 14. 이전 1 다음 반응형