본문 바로가기

데이터분석/TIL

Tableau Prep Builder를 통한 데이터마트 구축

Tableau Prep Builder란?

데이터를 결합, 변형, 정리할 수 있는 태블로에서 제공하는 인터페이스를 말합니다.

더 많은 데이터에 연결

온프레미스에 있든 클라우드에 있든 상관없이 데이터베이스와 스프레드시트 모두에 연결할 수 있습니다. 코드를 작성하지 않고도 다양한 데이터에 액세스하고, 결합 및 정리할 수 있습니다. Tableau Prep Builder는 가능할 때마다 지능적으로 작업을 데이터베이스에서 직접 진행하므로, 데이터베이스에 대한 기존 투자를 활용하여 흐름을 빠르게 실행합니다.

 

공동 작업의 기회 열기

분석의 흐름을 유지할 수 있습니다. 생성된 흐름을 Tableau Desktop으로 열거나 Tableau Server 또는 Tableau Cloud를 통해 다른 사람들과 공유하기가 쉽습니다. 쉽게 공유할 수 있으므로 마찰을 줄이고 데이터 준비와 분석 간의 격차를 좁혀 더 나은 비즈니스 결과를 얻을 수 있습니다.

 

즉각적인 결과 보기

값을 편집하고 싶다면, 선택하여 바로 편집하면 됩니다. 조인 유형을 변경하고, 결과를 즉시 확인할 수 있습니다. 수백만 행으로 구성된 데이터라도 데이터 변경 사항을 즉시 확인할 수 있습니다. Tableau Prep Builder를 사용하면 자유롭게 단계 순서를 바꾸며 부담 없이 시도해 볼 수 있습니다.

 

태블로 신병훈련소 24기에서는 prep builder를 활용한 4년치 매출데이터, 지역별 관리자, 반품데이터의 병합과 추출방법을 가르쳐 주었습니다.

 

데이터 (신병훈련소 측 제공):

1. 영업 실적 2015년.xlsl

2. 영업 실적 2016년.xlsl

3. 영업 실적 2017년.xlsl

4. 영업 실적 2018년.xlsl

5. 지역별 관리자.xlsl

6. 반품.xlsl

 

데이터 병합 종류

1. Union

2. Inner Join

3. Left Outer Join

4. Right Outer Join

5. Left Only Join

6. Right Only Join

 

1. 영업실적 2015년부터 2018년까지의 데이터를 유니온할때, 하나의 파일을 다른 파일 위로 드래그 앤 드랍해서 유니옵을 합니다. 

 

**와일드카드 유니온을 이용하는 방법**

드래그 앤 드랍을 통한 유니온은 최대 10개의 파일까지만 가능하기 떄문에, 10개보다 많은 파일을 유니온할때 와일드 카드 유니온을 유용하게 사용할 수 있습니다. 

 

2. 유니언한 데이터와 지역별 관리자를 조인합니다.

조인을하면 일치하지 않은 값이 표시됩니다. 

실적 데이터에는 "서울경기"라는 값이 있는데 지역별 관리자에는 "서울경기"값이 없다보니 조인되지 않은 행이 있습니다. 

더 자세하게 살펴보기 위하여 조인 사이의 단계를 추가합니다. "단계 정리" 단계를 추가합니다.

 

지역 필드로 가서 값을 정리해봅니다.

"서울 경기"는 "수도권"에 포함이 되기 때문에 2개의값을 묶어 주어야 합니다.

1) "서울경기" 클릭 후, ctrl "수도권" 클릭 --> 수도권에서 마우스 오른쪽 버튼 클릭 --> 그룹 클릭

2) "서울경기" 더블 클릭 --> "수도권" 입력 후 엔터

 

3. 반품 데이터를 조인해 봅니다.

지금까지 조인이 완료된 데이터의 "주문 번호"값과 반품의 "주문 번호" 값을 이용해서 이ㅓㄴ 조인을 하게 되어있습니다. 

우리가 원하던 결과가 맞을까요?

우리는 전체 4개년치 데이터에 반품 정보를 결합해야하는데, 지금은 전체 4개년치 데이터가 아니라 반품 데이터에 있는 주문번호와  조인되는 일부 데이터만 가져오는 형태입니다. 

즉, 우리는 왼쪽에 있는 조인 1의 데이터를 모두 가져오면서 반품 정보를 결합해야 하니, 조인 형태를 변경해줘야 합니다.

조인 1의 데이터를 모두 가져오도록 조인 1의 비어있는 집합 부분을 클릭합니다.

조인 유형이 left로 변경되고, 조인 결과가 총 11,000건으로 변경됩니다. 

 

+단계 정리 단계를 추가해줍니다.

Table Name --> 지역-1, 주문번호-1을 클릭해서 제거해줍니다.

 

4. 분석할 수 있도록 데이터로 출력해 보도록 합니다. 

출력의 유형은 크게 2가지가 있습니다. 

1) 파일에 저장: 자신의 CP에 hyper 또는 csv파일로 저장

2) 데이터 원본으로 게시: 서버에 데이터 원본으로 게시

 

원하는 형태로 출력 옵션을 지정한 후 "흐름 실행" 버튼을 눌러줍니다.