데이터 시각화를 하는 이유와 기업에서의 활용 방법을 소개합니다. 또한, 액션 가능한 인사이트를 얻기 위한 다양한 그래프 유형과 좋은 시각화 핵심 법칙을 알아보겠습니다.
인간이 어떤 정보를 받아들일 때 70%를 시각으로 받아들인다고 합니다. 오른쪽 사진처럼 색상 속성을 활용하면, 같은 정보라도 훨씬 빠르게 정보를 이해할 수 있죠. 이처럼 쉽게 이해할 수 있게 시각적으로 표현하면, 보다 수월한 커뮤니케이션을 진행할 수 있습니다.
기업에서 시각화를 하는 이유
기업에서 데이터 시각화를 하는 이유는 궁극적으로 액션 가능한 인사이트를 찾고 커뮤니케이션을 하기 위해서입니다.
제품과 서비스가 실패하는 대부분의 이유는 제품-시장 적합성(Product-Market Fit, PMF)을 찾지 못했기 때문입니다. 사람들의 필요는 표면적으로 드러나지 않기 때문에 가설을 테스트하기 위한 최소 기능 제품(Minimum viable product, MVP)을 시장에 빠르게 낸 후에 고객에게 이를 테스트하고, 빠르게 피드백받아서 초기에 세운 가설을 검증해야 합니다. 그리고 그 PMF를 만족하는지 확인하기 위한 대표적인 지표로 리텐션, 전환율, 순수 추천 지수가 있죠.
이처럼 시각화는 명확한 문제정의와 그 문제를 해결하기 위한 MVP를 시장에 냄으로써 사용자 행동로그 데이터를 통해 가설을 검증하고, PMF를 만족하는지 지표를 확인하여 개선하기 위한 액션을 하는 과정에서 명확한 커뮤니케이션을 위해 하는 것이죠.
목적은 커뮤니케이션
- 질문에 대한 핵심 메시지가 명확한가?
- Action Item(행동을 촉진하는 내용)이 있는가?
- 상대방과 나 사이에 공유된 컨텍스트를 고려했는가?
- 인사이트를 얼마나 이해하기 쉬운 형태로 전달하는가?
데이터 시각화를 활용하는 부분
- 가설 수립 : EDA(Exploratory Data Analysis)
- 탐색적 데이터 분석을 위한 시각화
- 가설 검증 : A/B 테스트
- 가설 검증을 하기 위한 시각화
- 모니터링 : 대시보드
- 장기적인 모니터링을 위한 시각화
- 스토리텔링 : 프레젠테이션
- 조직 내 커뮤니케이션을 위한 보고서형 스토리텔링 시각화
좋은 시각화 핵심법칙
1. 시그널은 최대화 노이즈는 최소화
사람이 한 번에 처리할 수 있는 정보량에는 한계가 있기 때문에 "정보 전달의 효율성"을 생각해야 합니다. 즉, 한 그래프에 너무 많은 정보를 담으면 안 되고, 중요한 정보만 강조에서 넣어야 하는 것이죠.
2. 데이터 잉크 비율을 높이자
표현하고하는 데이터 외에는 불필요한 장식을 없애 심플하게 만들어야 합니다. 예를 들어 막대그래프 색깔을 무지개 색깔로 지정한다면, 어떤 데이터를 강조하려고 하는지 알 수가 없죠. 이때는 강조하고 싶은 데이터만 색깔을 다르게 표현해 주는 것이 좋습니다.
3. 시각 속성 확용하기
인간의 눈이 미묘한 차이를 잘 구별할 수 있는 속성과 아닌 속성이 있습니다. 그 순서는 위치, 길이, 방향, 각도, 면적, 부피, 채도입니다. 즉, 위치에 따른 차이는 잘 구분할 수 있고, 채도에 따른 채이는 잘 구별이 어려운 것이죠.
그런 의미에서 Scatter, 막대그래프는 좋은 그래프입니다. 미묘한 차이도 잘 구별할 수 있기 때문이죠. 각도, 면적, 부피, 채도의 속성이 들어간 그래프는 최대한 쓰지는 않되, 단점을 개선하는 방향으로 써야 합니다.
그래프 유형별 TIP
1. 막대그래프
제일 긴 막대부터 쉽게 비교 가능한 그래프입니다. 주로 카테고리별 데이터를 비교할 때 사용됩니다. 주의해야 할 사항은 축은 반드시 0부터 시작해야 한다는 점입니다. 차이가 과도하게 강조되어 사실을 왜곡하게 되기 때문이죠. 색은 강조하고 싶은 요소에만 사용해야 합니다.
2. 파이 차트
비율을 표현할 때 사용하는 그래프이지만, 시각적으로 좋지 않은 그래프입니다. 만약 그래도 비율을 나태내고 싶다면, 정확한 길이 속성과 텍스트 정보까지 함께 쓸 수 있는 도넛 차트를 쓰는 걸 추천드립니다.
3. 3D 차트
3D 그래프는 사용하지 않아야 합니다. 정확한 사실이 전달되지 않을뿐더러 왜곡된 정보 전달 여지가 있기 때문이죠.
4. 꺾은선 그래프
막대그래프와 달리 축을 잘라내도 괜찮습니다. 트렌드를 나타내는 꺾은선 그래프의 가장 중요한 역할은 선의 기울기로 경향을 파악하는 것이기 때문입니다.
5. 이중축
이중축은 혼란의 여지가 있습니다. 어느 쪽 축이 막대이고 어느 쪽 축이 선인지 불분명해 이해하기가 어렵습니다. 두 개의 그래프를 나눠서 표현하는 걸 추천드립니다.
6. 산포도
가로축에 원인, 세로축에 결과를 표시해야 합니다. 선포도의 상관관계는 인과관계를 나타내지는 않지만, 일반론으로 성립된다고 생각하는 경우 해석하기 쉽게 하기 위해 사용합니다. 선행지표는 x축에, 후행 지표는 y축에 넣는 것이 기본입니다.
7. 시간축
시간에 따른 데이터의 변화를 보여줄 때 사용합니다. 시간을 가로로 배치하는 편이 경향을 인식하기 훨씬 편리합니다.
기업에서 구체적으로 어떤 지표들을 관리하고 시각화하는지는 린스타트업과 그로스해킹 개념을 알고 계시면 좋습니다. 특히, 그로스해킹에서 나오는 개념은 AARRR 개념을 알고 있으면 지표가 어떤 것들이 있는지 보다 명확하게 이해가 되실 거예요. 여기까지 데이터 시각화를 하는 이유와 좋은 시각화 핵심 법칙에 대해서 알아보았습니다 :)
함께 보면 좋은 글
'데이터분석 > Seaborn, matplotlib' 카테고리의 다른 글
Seaborn 막대 그래프 7가지 종류 그리는 방법 (vs Matplotlib) (0) | 2023.10.27 |
---|---|
Matplotlib 막대 그래프 그리는 7가지 방법(errorbar, 100% 누적 바 등) (0) | 2023.10.16 |
Matplotlib Subplot 활용해서 그래프 여러개 그리는 3가지 방법 (0) | 2023.10.12 |
plt.legend 옵션으로 그래프 범례 모양 커스터마이즈하기 (0) | 2023.10.10 |
댓글