ITchaive

[ITchaive .1] 빅데이터 시대로 접어들다.

Delants 2023. 2. 3. 12:55

2023년 현재를 살아가고 있는 지금, 세상은 계속 변화하고 있습니다.

 

예전에는 상상도 할 수 없었던 일들이 지금은 매우 쉽게 하고 있죠.

 

터치 한 번으로 송금할 수 있고,

내가 타는 버스는 몇 분 남았는지 한 번에 알 수 있고,

인터넷에서 아침에 책을 주문하고 저녁에 받아볼 수 있고,

전화를 걸지 않고 앱에서 배달음식을 주문해서 받아서 먹을 수 있고, 

휴대폰 하나만 있으면 결제까지 바로 되는 등

 

현재는 '기술의 홍수' 시대에 살고 있다고 해도 과언이 아닙니다.

 

지금 이 글을 쓰고 있는 시점에서도 인간과 기계 사이에 매우 많은 상호작용이 일어나고 있습니다.

얼마나 많은 사람들이 돈을 주고받을까요?

얼마나 많은 사람들이 앱에서 주문을 할까요?

상상 그 이상의 수의 사람들이 실시간으로 지금도 하고 있을 것입니다.

 

그리고 그 사이에서 발생되는 데이터는 매번 생성되고 갱신되기도 합니다.

만일 어떤 사람이 반품버튼을 눌렀다면? 반품 데이터가 생기고, 주문 데이터는 갱신됩니다.

그야말로 1시간 사이에도 수천, 수만건이 넘는 데이터가 바뀌기도 합니다.

 

지금은 몇 천만건, 몇 억 건.... 그 이상 아주 많은 데이터들이 존재할 것입니다.

그것이 바로 '지금이 빅데이터의 시대'라는 것을 말해주고 있습니다.

 


빅데이터란, 상용데이터베이스 관리 도구와 기존 데이터 처리 앱으로 처리하기 힘들 정도로 복잡한 데이터의 집합입니다.

이러한 데이터의 집합의 경향을 파악하면 다양한 상관관계를 파악할 수 있지요.

 

어떤 제품의 판매량이 우리 회사의 매출과 얼마나 관계가 있을까?

 

이러한 분석을 할 수 있게 된 것도,

하루하루 무수히 쏟아져 나오는 데이터의 양이 매우 많기 때문입니다.

 


30년 전, 1993년 정도 의 컴퓨터 저장용량은 100mb, 200mb정도로 지금으로 보면 프로그램 1개 설치용량보다 작았습니다.

 

하지만 10년 뒤, 2003년에는 pc의 보급화와 windows운영체제의 도입, 게임용량이 점점 증가하여

적게는 20GB, 만게는 100GB의 용량을 선보이는 등 시판되는 하드디스크 용량이 큰 폭으로 증가하였습니다.

 

2013년에는 SSD의 등장으로 아주 빠른 속도를 자랑하는 신개념 플래시 드라이브가 막 나왔지만 상용화는 되지 않았습니다. 그리고 당시 주력 용량은 하드디스크 250~500GB정도였습니다.

 

그리고 2023년, 현재는 과거와 비교할 수 없을 정도로 대용량 저장장치가 가정은 물론, 센터에서까지 보급이 되었습니다.

더욱 빠른 속도의 SSD로의 대체가 완료되었으며, 그 용량도 500GB ~ 1TB까지도 대중적으로 쓰입니다.

물론 데이터의 저장장치가 중요한 연구기관에서는 HDD를 주로 사용하지만, 무려 PB급 제품까지 쓰이는 실정입니다.

 

하드디스크, SSD의 가격도 계속 낮아지는 추세이기에 데이터의 홍수에 살고 있는 지금으로서는 

예전의 사양으로는 생각조차 할 수 없었던 무수히 많은 데이터가 쏟아져 나오고, 그 데이터를 이용해 다양한 마케팅 자료로 활용하고 있습니다.

 


이런 배경으로 인해 많은 것들이 바뀌었습니다.

 

유튜브 알고리즘부터, 쇼핑몰 추천 시스템까지.

그야말로 정보가 '없어도 되는'시대가 아닌,'없어선 안될'시대로 접어들고 있습니다.

출처) 유튜브, 쿠팡


그렇기에 분석가들과 엔지니어들은 항상 이러한 문제에 고민합니다.

 

어떻게 하면 빅데이터를 다룰 수 있을까? 라는 고민을 말이지요.

 

예전에는 양이 적었기 때문에 그냥 클릭만 하면 자동으로 분석이 되는 시대였지만

매우 복잡한 현 시점에 이러한 방법을 적용하기에는 무리가 따릅니다.

 


 

분석가들의 주 업무는 추출된 데이터를 바탕으로 리포팅을 하는 것입니다.

 

하지만 지금은 빅데이터 시대입니다. 이들은 이렇게 간단한 작업을 직접 해야 하는 어려움에 빠집니다. 

1) 이제는 스스로 지표들을 결정해야 하고,

2) 데이터를 추출하려면 기본적으로 DB에서 데이터를 뽑아올 수 있는 언어인 SQL이 필요하므로, 해당 언어를 배워야 한다고 볼 수 있습니다.

 

그렇다면 왜 이들은 SQL언어를 배워야 할까요?

 

SQL을 배우지 않는다면 데이터에 접근할 수 없으므로 어떤 데이터를 이용해 집계할 수 있는지 생각할 수 없게 되며

만일 리포트를 만들 때 필요한 데이터나 도구가 있다고 해도, SQL을 모른다면 그 데이터를 조작할 수 없으므로 리포트를 만들기란 불가능할 것입니다.

또한, SQL을 작성하는데 시간이 오래 걸려 정작 본업인 리포트를 작성하는데는 시간을 덜 쏟게 되어 품질을 장담할 수 없는 상황입니다.

 

물론 최근에는 Tablau 혹은 QGIS와 같은 데이터 시각화 도구들이 상용소프트웨어로 사용되고 있습니다.

하지만 그것들이 과연 Big Data에서도 통할까요?

그렇지 않습니다. 바로 비즈니스적인 수준을 넘어서는 복잡함이 존재하기 때문입니다.

 

하나의 테이블만 사용하는 것이 아닌, 여러 테이블을 사용해서 결과를 뽑아내므로,

테이블간의 relation을 고려해야 하며, 데이터를 준비할때의 그 전처리 과정 역시 필요합니다. 

이러한 복잡함은 상용 s/w로 분석하기엔 한계가 있습니다.

 


그렇다면 엔지니어들은 빅데이터 시대에 어떤 과제를 해결해야 할까요?

기존처럼 분석만 하게 될까요?

 

빅데이터는 매우 복잡하기 때문에, 기존 분석 담당자의 기술을 넘어서야만 합니다.

분석과 결과 해석까지도 할 수 있는 능력이 요구됩니다.

즉, 이제는 분석 리포팅까지 해야하는 능력을 겸비해야 하는 것입니다.

 

1) 리포팅 방법을 모른다면, 집계가 제공된 자료밖에 제공할 수 없고

2) 경영진이 원하는 리포트가 무엇인지 파악할 수 없습니다.

 

하지만 이렇게 된다면 분석을 하는 기술자 입장에서는

분석을 하는 데 소홀해질 수 있다는 단점이 있습니다.

 

그렇다면 어떤 방법을 고려하는 것이 조금 더 업무의 효율을 높일 수 있을까요?

 


바로 분석 담당자와 엔지니어 간의 이해관계를 구축하는 것이 그 해결방법입니다.

 

예전에는 분석스킬의 엔지니어와 리포팅스킬의 분석담당자들의 관점들이 각기 달랐기에

이해관계가 형성되지 않고, 서로 다른 인식을 가지게 되어, 결과가 예상했던것 과는 다른 형태로 나가는 경우가 있었습니다.

 

하지만 빅데이터 시대에서는 각자의 이해관계를 확인하여야 합니다.

 

기존의 작업 영역을 넓혀서 각자가 할 수 있는 작업의 범위를 넓히고,

서로의 작업에 대한 이해를 하여 원활한 커뮤니케이션이 되게 하여

기존에 자신이 담당했던 엄무를 할 경우에도 새로운 방법들을 발견하여 자신의 업무에 적용해 볼 수도 있을 것입니다.

 

그만큼 이제는 '각자'가 아닌, '협력'의 시대에 접어들었다고 볼 수 있습니다.

 


 

무수히 쏟아져 나오는 데이터의 홍수 속에서,

일반인이든, 분석가든 과연 어떻게 그것을 잘 활용할 수 있을지 충분히 고민해 볼 필요가 있을 것 같습니다.

 

감사합니다.

 

 

* 본 글은 데이터 분석을 위한 SQL레시피 교재를 활용하여 작성된 글입니다.