SQL/Google Big Query

[빅쿼리 #2] 프로젝트 및 데이터셋과 테이블 만들기

Delants 2023. 1. 17. 17:37

https://dtandard.tistory.com/16

 

#1. 구글빅쿼리 무료로 시작하기

오늘은 구글 빅쿼리를 무료로 시작하는 방법에 대해 살펴보겠습니다. sql을 사용하다보면 구글 빅쿼리를 한 번쯤 들어보았을 것입니다. 아직 접해보지 않으신 분들을 위해 간략히 소개해 드리면

dtandard.tistory.com

위 작업을 다 끝냈다면 다음으로 해야할 것은 무엇일까요?

바로 본격적인 작업에 들어가기 앞서서 데이터셋과 테이블을 만드는 작업일 것입니다.

오라클에서는 데이터베이스를 만들고 그 안에서 create table구문을 사용해 바로 테이블을 만들 수 있지만

구글빅쿼리는 약간의 작업을 해야 합니다.

 

빅쿼리는 프로젝트 - 데이터셋 - 테이블 순서의 구조로 되어 있기 때문에 절차대로 진행해야 하며

향후 쿼리 작성시에도 이 부분을 놓치기 쉬워 에러가 발생하는 경우가 있습니다.

이 에러에 관한 부분은 다음 시간에 살펴보도록 하고

오늘은 프로젝트/데이터셋/테이블 만드는 작업 절차를 알아보도록 하겠습니다.

 


1. 프로젝트 만들기

 

먼저, 구글 클라우드 페이지로 들어갑니다.

프로젝트가 없다면 구글 클라우드 옆의 박스를 클릭하여 새 프로젝트를 만듭니다.

 

 

이후 다음과 같은 창이 뜰 것입니다. 그러면 형광펜을 칠한 부분인 '새 프로젝트'를 클릭합니다.

 

여기서 프로젝트란, 작업 단위를 말하는 것으로 하나의 프로젝트에 여러 개의 쿼리와 테이블을 만들 수 있습니다.

무료 버전에서의 프로젝트는 총 25개까지 생성할 수 있으며 그보다 더 많은 프로젝트를 작성하기 원한다면 결제가 필요할 수 있습니다. 꽉 찼다면 프로젝트를 지우고 생성하여야 합니다.

 

 

다음으로 프로젝트 이름과 위치(조직)을 작성합니다. 프로젝트 id는 기본값으로 설정이 되어 있습니다.

프로젝트 이름은 수정이 가능하지만, 프로젝트 id는 변경이 불가능하므로, 신중하여야 합니다.

만일 프로젝트 id를 변경하고자한다면 수정을 눌러 변경해 주세요. 프로젝트를 만든 이후에는 변경이 되지 않습니다.

프로젝트 id는 소문자, 숫자, 하이픈을 사용할 수 있으며 소문자로 시작하고 문자나 숫자로 끝나야 합니다. (6~30자리)

조직이 없다면 조직 없음으로 하고 '만들기'를 클릭해 주시면 됩니다.

 

이렇게 프로젝트를 만드는 절차는 끝났습니다.

그렇다면 이제는 어떻게 SQL쿼리 창에 들어갈 수 있는지 확인해 보도록 하겠습니다.

 

프로젝트를 만드셨다면 다음과 같은 창이 뜰 것입니다.

 

쿼리창으로 진입하기 위해서는 왼쪽 상단의 탐색메뉴 -> BigQuery -> SQL 작업공간으로 들어가 주시면 됩니다.

클릭을 하시면 다음과 같은 창이 보입니다. 여기서 이제 쿼리를 입력하고, 저장하고, 테이블을 보고 다 하는것이지요.

 

왼쪽에 보시면 sql-project-203040이 보입니다. 이것이 바로 아까 만들었던 프로젝트id입니다. 

 

2. 데이터셋 및 테이블 만들기

 

쿼리는 화면 왼쪽 중간에 '새 쿼리 작성'을 클릭하시면 다음과 같은 편집기가 나옵니다.

해당 편집기에서 쿼리를 작성하여 작업을 진행하면 됩니다. 

 

그렇지만 쿼리를 작성하고 데이터를 뽑아내려면 테이블이 있어야 하는데,

아직 만들지 않아서 관련한 쿼리를 추출할 수 없습니다. 

빅쿼리에서는 바로 create table 구문을 사용하는 것이 아니라,

먼저 왼쪽 상단 탐색기 옆에 있는 데이터 추가 버튼을 클릭하여 테이블을 만드는 일련의 절차를 거쳐야 합니다.

처음 접해보신 분들은 이게 뭔지 감이 잘 안오실 수 있지만 차근차근 따라가 보시면 이해가 될 것 같습니다.

빈 테이블을 한번 만들어 보겠습니다.

 

[1. 소스 탭]

아래 사진에서 로컬파일 클릭 ->  소스-테이블을 만들 소스에서 빈 테이블 선택합니다.

일반 파일을 삽입할 것이라면 기본값인 업로드를 선택하고 csv, jsonl 등의 파일형식의 파일을 업로드 하면 됩니다.

 

[2. 대상 탭]

대상 탭에서는 테이터세트 이름과 테이블 이름이 필요합니다.

지금은 둘 다 없지만 먼저 데이터세트가 없으므로 데이터세트를 클릭하고 새 데이터세트 만들기를 클릭합니다.

 

클릭하면 다음과 같은 창이 나옵니다.

 

 

먼저 프로젝트 id를 보실 수 있으며, 데이터세트 id를 필수로 입력하라고 되어 있습니다.

데이터세트id는 문자, 숫자, 밑줄만 허용됩니다. 저는 example_data라고 입력해 보겠습니다.

위치 유형은 기본값인 멀티 리전으로 선택해 줍니다.

그리고 테이블 만료 사용 설정은 테이블 기간을 지정하는 것입니다. 이는 선택 사항입니다. 

그런 다음 데이터세트 만들기를 클릭해 주시면 됩니다.

이 절차까지 마무리된다면 데이터세트 간에 입력이 될 것입니다.

 

 

다음으로는 테이블을 이름을 만들 차례입니다. 

테이블도 필수 입력 사항이므로 같이 입력해 보겠습니다.

테이블 이름은 example_table로 하고 

위 사진에서는 보이지 않지만,

해당 페이지의 맨 아래 '테이블 만들기' 버튼을 클릭합니다.

그러면 다음과 같이 example_table 테이블이 만들어진 것을 확인할 수 있습니다.

아직 테이블에 아무런 속성을 추가하지 않았으므로 빈 테이블로 표시가 되는 것을 볼 수 있습니다.

쿼리를 작성하고자 할 경우, 돋보기 모양의 쿼리를 클릭한 뒤, 

새 탭에서 열기 or 분할 탭에서 열기 둘 중 편한 것을 선택하면 됩니다.

 

그리고 다시 나갔다가 클라우드에 다시 접속하게 되면

탐색기 부분에 보시면 아까 만들었던 데이터 세트와 테이블이 있는 것을 확인할 수 있습니다.

 

이렇게 프로젝트와 데이터셋 그리고 테이블을 만드는 방법 까지 모두 완료가 되었습니다.

 


이러신 분들이 계실 것입니다.

 

"데이터 셋만 만들고, 테이블은 따로 구문 작성해서 만들고 싶어요.

좀 더 간편하게 만드는 방법 없을까요?"

 

앞서 소개해드린 방법은 csv파일이 있을 경우 유용한 정석적인 방법이고

데이터셋만 만들고 테이블을 따로 만드는 방법도 존재합니다.

 

1. 프로젝트 id옆의 점3개를 누르고 데이터 세트 만들기를 클릭합니다.

 

2. 데이터세트 아이디를 입력하고 하단의 데이터세트 만들기 버튼을 클릭합니다.

 

3. 데이터셋 추가가 완료되었습니다.

이제 create구문 등으로 직접 테이블을 만들어 보세요.

 

위와 같이 데이터셋만 만들 경우 간단하게 진행할 수도 있습니다.


 

오늘은 이렇게 프로젝트/데이터셋/테이블 만들기를 살펴 보았습니다.

 

헷갈릴 수 있지만 빅쿼리의 입문이니 처음 접하신 분들께 유용한 도움이 되었으면 좋겠습니다.