토요일, 2월 08, 2020

[독서광] 데이터 읽기의 기술

오늘은 빅데이터와 관련한 독후감을 하나 소개하겠다. 스타벅스코리아 1호 데이터사이언티스트로 알려진 차현나님의 데이터 읽기의 기술이 주인공이다.

이 책은 크게 3부로 나뉘어져 있는데, 솔직히 1부는 많은 책과 블로그에서 다루는 내용이라 재미가 없었다. 2부를 위해 다음 그림과 표만 기억하면 끝나는 것 같다.

5W1H 데이터 종류 의미
누가(WHO) 멤버십 등급, 동의를 받고 수집한 개인정보(생년월일, 성별, 거주지) 한 명의 고객. 멤버십에 가입했다면 여러 번 방문한 영수증을 한 사람의 행동으로 연결할 수 있게 되어 더욱 힘을 갖는다.
언제(WHEN) 연-월-일-시-분-초, 요일, 공휴일 여부 초 단위까지 있다. 회계에서 중요한 기준이 될 수 있다. 여러 관점에서 분절해 분석할 수 있으며, 데이터에 힘을 실어주게 된다. 외부 데이터와 연결할 수 있는 중요한 ‘핵심 가치'
어디서(WHERE) 매장 이름, 주소, 상권, 위경도 오프라인 매장이며, 이 매장의 위치가 행정구역이나 위경도와 만나는 순간 흔히 상상하는 빅데이터가 될 가능성이 생긴다.
무엇을(WHAT) 제품 기준 정보, 범주, 속성, 발주 일시, 가능하면 분자 단위… 기업의 상품 기준 정보. SKU 단위까지 분류하고 세부 태그를 붙인다. 분류 체계가 중요함
어떻게(HOW) 결제 수단, 쿠폰 사용 여부, 이벤트 참여 여부 소비자가 기업에 비용을 지불하는 방법을 다각도로 설명하고, 여기서 프로모션 수단이 나옴
왜(WHY) SNS 분석, 설문 조사, 포커스그룹 심층 면접 영수증 데이터만으로는 소비자의 행동 원인을 알기 어려울 때가 있으므로 다른 데이터에서 추정

조금 재미있는 내용은 데이터 앞에서 해야할 질문 10가지라는 제목의 2부에 나온다. 기억을 위해 간단하게 정리를 해보았다.

  1. 우리 회사가 돈을 버는 핵심 제품/서비스는 무엇인가: 데이터로 뭘 할지 모르는 상태에서 "돈을 벌 수 있는 데이터 분석을 해오세요"해도 소용이 없음. 대다수 오프라인 기업들은 데이터가 필수가 아니며, 제품 판매를 높이고 차별화를 주는 하나의 수단에 불과
  2. 우리 회사의 데이터 역량은 어느 정도인가: 분석 요건, 머신러닝, 고도화된 대고객 마케팅 기법을 이야기하지만… 미봉책으로 신규 데이터를 만들어내고 쌓고, 그러느라 서버를 구매하고, 프로젝트를 띄우고 컨설팅 업체에 돈을 지불하는 악순환을 반복
  3. 데이터의 필요성을 모두가 느끼고 있는가: 과거를 포함해 현재에도 데이터를 보지 않아도 잘 나가는 회사가 있지만, 세상이 변했기에 이름난 제품 하나로 시장을 휘어잡지 못함. 데이터를 통해 더 빠르고 더 확실한 방법으로 나아갈 방법을 찾아야 함. "빅데이터 그거 어차피 사람들이 이해도 잘 못하는데 꼭 해야 하나?"라는 질문을 하고 싶다면 자신이 데이터를 잘 이해하지 못하기 때문에 중요하지 않다고 생각하는 건 아닌지 되돌아 볼 필요가 있음.
  4. 데이터가 모든 것을 해결해줄까: 데이터가 많더라도 매출 집계 이외 아무런 분석도 하지 않는 조직이 많음. 데이터는 목적이 있을 때만 정돈이 가능한 특성이 있음.
  5. 듣도 보도 못한 것을 기대하는가: 실제로 데이터를 보지 않은 사람들이 새로움에 대해 더욱 집착하는 경향이 있음. "이거 내가 다 알던 건데 뭐가 새롭냐?"(지금까지는 감으로 알던 내용을 데이터로 증명했기 때문에 중요함) "다 알던 것을 뭐하러 데이터로 증명했지?"(정합성이나 로직을 따져 일단계 완료하는 데만 에너지가 필요함(2, 3차 분석으로 이어지는 토대))
  6. 내가 이해하는 만큼만 인정하려 하는가: 내 생각과 맞을 땐 "너무 뻔한 것 아니야? 이거 보기 전에도 난 알고 있었는데". 내 생각과 틀릴 땐 "데이터가 상식적이지 않는데?" 여기서 두 사람은 동일인일 가능성이 높음(의견과 아이디어가 있는 듯이 보이기 때문)
  7. 목적을 명확하게 세웠는가: "많이 팔릴 것을 만드는 것이 이번 프로젝트의 목적이다" 또는 "사람들이 많이 수집할 만한 제품을 만들어 와"는 실무자에게 전혀 도움이 안 됨. 목적 --> 프로젝트 --> 주제 --> 연구 문제 --> 통찰 --> 모델링 --> 전처리 --> 데이터 순서로 흘러감
  8. 매출 데이터만 중요할까: 매출은 소비자의 '마지막 결정의 결과'일 뿐이므로 행동 단위를 파악해야 함. 소비자 구매 전후를 많이 알수록 구매행동 결정의 이유를 정확히 알 수 있음.
  9. 많기만 하면 빅데이터일까: 단순한 문항 하나를 많은 사람을 대상으로 질문했다고 해서 빅데이터로 변신하지는 않음(설문조사를 단순 집계한 결과일 뿐)
  10. 시간 투자 없이 결과만 원하는가: 만일 빠르게 숫자만 확인하고 싶다면 반복적으로 수치를 확인할 수 있는 대시보드를 만들어라!

3부는 데이터 활용과 관련해 점검해야 하는 사항을 정리하고 있다.

  1. 프로젝트를 시작할 때 해야 할 질문들: i) 지금 하는 프로젝트는 누가 원하는 것인가? ii) 지루한 분석 작업을 꼭 해야 하는가?(시간이 충분할 때: 최대한 촘촘하게 경우를 나눠 데이터 분석 vs 목표가 명확할 때: 기존 연구 결과에서 일부를 차용해 이야기를 새롭게 구성) iii) 분석해야 하는 명제가 확실한가?
  2. 프로젝트를 하는 중에 해야 할 질문들: i) WHO(고객 정의) ii) WHEN(시계열 변화, 프로모션 시점) iii) WHAT(제품 카테고리, 개발 통찰력) iv) WHERE(점포 개발, 외부 GIS, 날씨) v) HOW(새로운 방법론, 프로모션) vi) WHY(소비자 마음의 원리)
  3. 보고서를 만들거나 보고할 때 고려해야 할 것들: i) %보다 복잡한 모델을 이해하는 직장인은 거의 없다 ii) 액션 플랜을 담고 있어야 한다 iii) 실행할 전략을 짜려면 비용을 알고 있어야 한다(예: 1+1 증정, 즉시 50% 할인, 구매 시 50% 쿠폰 증정의 차이점은?)

결론: 마케팅이나 심리학 등을 전공하신 분이라면 이 책이 크게 도움이 안 될 가능성이 높지만, 빅데이터나 분석 쪽에 입문을 하거나 아니면 관련 개발 업무를 하시는 분이라면 이 책을 읽으면 머리 속이 정리될 것이다.

EOB

댓글 없음:

댓글 쓰기