product manager

넷플릭스 데이터 시각화하기 [코드스테이츠 PMB 10기]

오랑체리 2022. 3. 3. 12:00

넷플릭스는 2월 25일, 월 구독료를 인상하였다. 베이식, 스탠다드, 프리미엄 세 요금제 중 스탠다드는 월 1만 2000원에서 1만 3500원, 프리미엄은 월 1만 4500원에서 1만 7000원으로 올렸다. 나는 뭔가 느낌이 싸했다. 한국만 그럴싸한 이유로 올리는 것은 아닐지, 요금을 인상한 만큼 더 많은 콘텐츠를 한국에 보여주고 있는지 궁금해졌다. 그래서 오늘은 넷플릭스 데이터를 활용하여 그 진실(?)을 알아보려고 한다.


Kaggle에서 넷플릭스 데이터 찾기

kaggle은 공개 데이터를 바탕으로 데이터 분석을 연습해 보고 서로 공유하는 포럼 형식의 사이트이다. 나는 kaggle에 들어가 Netflix를 검색하고, 내가 찾고 싶은 데이터와 가장 유사한 데이터 파일을 검색하였다. 그리고 발견한 'Netflix subscription fee in different countries' 데이터를 csv 파일로 다운받았다.


총 65여 개 국의 데이터를 확인할 수 있었는데, 각 컬럼명은 다음과 같았다.

  • country : country
  • Total Library Size : total library size (TV shows + Movies)
  • No. of TV Shows : No. of TV shows
  • No. of Movies : No. of movies
  • Cost Per Month - Basic ($) : Basic subscription fee per month (USD)
  • Cost Per Month - Standard ($) : Standard subscription fee per month (USD)
  • Cost Per Month - Premium ($) : Premium subscription fee per month (USD)

그리고 구글 빅쿼리(Big Query)에 csv 파일을 저장한 후, 가설을 세우고 SQL을 이용하여 실제 결과를 확인하였다. 구글 빅쿼리는 Data Engineering을 몰라도 DB를 구성해 SQL을 사용할 수 있고, 결과를 시각화하여 볼 수도 있다.


구글 빅쿼리(Big Query)로 가설 검증하기

가설 1. 콘텐츠가 많을수록 기본요금이 비쌀 것이다.

나라별로 넷플릭스에서 보여주는 콘텐츠 수가 다른데, 기본요금인 Basic 요금제가 비쌀수록 콘텐츠도 다양하게 제공할 것이라고 예상했다.

X축 : Total Library Size
Y축 : Cost Per Month - Basic


각 나라별로 제공하는 영화와 티비쇼인 X축을 보면 적게는 2,274개, 많게는 7,325개를 제공하고 있다. 그러나 Y축인 기본요금($)이 커진다고 콘텐츠 수가 증가하고 있지는 않다. 오히려 기본요금은 콘텐츠 수와 상관없이 8~10$ 수준에서 가장 많이 분포하고 있음을 확인할 수 있었다.


가설 2. (월간 프리미엄 요금 - 월간 베이식 요금)은 국가별로 차이가 없을 것이다.

넷플릭스 요금제는 베이식, 스탠다드, 프리미엄 3개가 있다. 하지만 나라별로 요금 수준의 차이는 있겠지만, 프리미엄 가격에서 베이직 요금을 뺐을 때의 차이는 국가별로 비슷할 것이라고 생각했다. 각 3개의 요금은 큰 차이가 없고 단순히 평균 구독료가 다른 국가에 비해 높고, 낮을 것이라고만 예상했기 때문이다.


트리 맵으로 확인해보았는데, 결과는 가설과 달랐다. 프리미엄 요금과 베이식 요금의 차이가 가장 큰 스위스는 14.08$의 차이가 생겼고, 가장 적은 터키는 2.05$의 차이가 있었다. 그래서 대륙별로 경향성을 보이는지 확인해보니 그것도 아니었다. 의외로 핀란드는 9.03$로 중간에 속해있었고, 유럽 국가인 산마리노는 11.29$로 높은 편에 속했다.

가설 3. 미국이 영화 수는 가장 많을 것이다.

미국 할리우드 영화산업의 영향으로 인해 넷플릭스가 보여주는 영화 수는 미국이 월등히 많을 것이라고 생각했다.


히트맵으로 확인한 결과, 미국과 한국의 영화 수는 비슷하였다. 가장 많은 영화를 보유한 국가들은 유럽을 중심으로 퍼져있거나 말레이시아에 있었다.



오늘 처음으로 구글 빅쿼리를 사용해서, 간단한 쿼리를 짜는 데까지 오랜 시간이 걸렸다. 그래서 앞으로는 원하는 데이터를 잘 불러오고 저장하는 연습이 필요하다는 점 + SQL을 많이 연습해봐야겠다고 느꼈다. 그리고 아직은 데이터를 보고 가설을 세우는 과정이 어려웠는데, 앞으로는 많은 데이터들을 접해보면서 cvs 파일만 보아도 어떤 가설을 세워봐야겠다고 설정해보면 좋을 것 같다. 오늘은 내가 세운 3개의 가설이 모두 틀렸지만 다음에는 적중하는 날이 오기를,,





참고자료
Kaggle: Your Home for Data Science

Kaggle: Your Machine Learning and Data Science Community

Kaggle is the world’s largest data science community with powerful tools and resources to help you achieve your data science goals.

www.kaggle.com

Netflix subscription fee in different countries | Kaggle

Netflix subscription fee in different countries

Which countries pay the most and least for Netflix in 2021?

www.kaggle.com