하츠의 꿈

‘빅데이터 분석’을 고민할 때 먼저 생각해야 할 5가지 본문

울랄라뽕,IT

‘빅데이터 분석’을 고민할 때 먼저 생각해야 할 5가지

명섭이 2015. 5. 31. 01:02

빅데이터 분석 시 주의점, 내게 맞는 안경을 찾아라

빅데이터에 대해 모처럼 잘 정리된 기사 하나를 보았다. 대부분 겉핥기 식이거나 몇가지 예로 빅데이터를 설명하려는 글이 대부분인데 이렇게 다른 관점에서 빅데이터를 바라봐야 한다는 글은 몇 안되는 것 같고, 수년간 해당 업종에 종사하는 일인으로써 공감되는 부분이 많다. (참고 기사 : 직관은 실패해도 빅데이터는 성공하더라)

다만 기사 내용이 완벽한 것은 아니며, 빅데이터 분석 영역에 대한 기초적인 가이드라고 보는게 맞을 것이다. 해당 기사를 기준 삼아 빅데이터 분석을 준비하고자 한다면 오류를 범할 수 있어서 몇가지를 짚으려 한다.

 


<이미지 출처 : Billions Of Reasons To Get Ready For Big Data>

 

빅데이터는 안경과 같은 것, 하지만...

'빅데이터 분석은 안경과 같다. 흐릿하게 보이는 세상을 정확하고 또렷하게 보여준다' 기사에서 빅데이터에 대한 정의를 잘 내려주었다.

 

어떤 현상을 바라볼 때나 의사 결정이 필요할 때 우리는 지금까지 경험을 기반으로 직관에 의해 결정하는 경우가 많았다. 이것은 흐릿하게 보이는 사물을 맞추는 것과 같으며, 이 때 안경을 쓰면 사물이 또렷하게 보이는 것과 같이 결정에 명확성을 더할 수 있다고 기사에서 말하고 있다.

기사에서는 중요한 것 하나를 말하지 않았다. 바로 내 눈에 맞는 안경을 착용해야 한다는 것 말이다. 안경은 일반적인 것, 선글라스, 컨텍트 렌즈, 다초점렌즈 등 기능적으로 다양한 것들이 있고 검사를 받아 나에게 맞는 안경을 맞춰서 사용해야 한다.

빅데이터 분석도 마찬가지다. 내가 필요로 하는 것이 무엇인지를 명확히 해야 그에 맞는 솔루션을 구할 수 있다. 이 때 필요로 하는 것을 규정하기 어렵다면 전문가에게 조언을 구하는 것도 좋은 방법이다.

 

정확한 예측 가능, 그래도 틀리는 이유는?

기사의 내용과 같이 페어캐스트의 항공권 최저가 예측, 아마존의 사용자 행동 데이터 기반 추천 서적 시스템 등은 좋은 결과를 가져왔다. 잘 맞았다는 말이지. 빅데이터, 스몰데이터, 샘플데이터 무엇이든 간에 데이터를 분석한다는 것은 필요한 조건과 예외 사항, 외부 환경 요소에 따른 경우의 수가 많지 않은 경우에 결과를 도출하기가 쉽다.

하지만, 경우의 수가 매우 많고 각 경우마다 예외 사항이 복잡하며, 조건을 교차적으로 분석해야 하는 경우에는 결과를 예측하기가 어려워진다. 페어캐스트와 아마존의 경우는 어떤 면에서는 단순하다고 말할 수 있다.

 

오래전부터 슈퍼컴퓨터를 도입하여 빅데이터를 분석해 온 기상청이 간혹 잘못된 예측을 하는 것은 멍청해가 아니다. 경우의 수가 워낙 많다보니 그만큼 결과도 다양해질 수 밖에 없어서 잘못된 예측 결과가 나오는 것이다. 

정교하고 명확한 예측을 위해서는 더 많은 패턴을 찾아내야 하고, 더 많은 알고리즘과 더 많은 예외 처리를 적용할 수 밖에 없다. 이게 다 시간이고 비용이 된다.


 

통찰의 능력이 필요한 빅데이터 분석

'지금까지 원인이라는 인과성에 의존하여 결과를 도출하는 것이 우리의 사고 방식이다. 빅데이터를 분석한여 통찰을 얻는다는 것은 이런 관행을 뒤집어야 하는 어려움이 있다.' 수년간 데이터를 바라봐 온 나에게도 상당히 중요한 인식의 전환이 필요하다고 느낀 부분이다.

기계에 의해 중간 과정의 인과성은 모두 처리가 된다. 통찰을 얻고자 하는 사람은 그저 결과 만을 보고 따르면 된다. 이때 빅데이터 분석 솔루션은 상당이 높은 수준의 분석 능력을 갖추고 있어야 한다는 전제 조건이 있다.

 

이 분야에 종사 하면서 간혹 내가 보는 데이터에 의문을 가진 적이 있다. '리서치를 대체할 수 있는 정도가 빅데이터 분석으로 할 수 있는 전부일까? 그렇다면 뭐하러 이 짓을 할까?' 나 스스로가 인과성에 의존하여 빅데이터 분석을 하다보니 스스로 질문이 생겼고 그 질문에답하지 못했다.

빅데이터 분석은 과정을 전부 맞추는 것 보다는, 여러 분석 결과들의 상관 관계를 맺어 통찰할 수 있을까, 가치를 찾을 수 있을까가 중요하다. 그런 능력이 필요하다는 것이다.

지금까지의 스몰 데이터, 또는 그보다 더 작은 샘플 데이터로 분석을 할 경우 당연히 오류가 있으면 안되었다. 하지만 빅데이터 분석이라는 것은 그런 작은 부분보다는 전체를 파악하고 진단할 수 있어야 가치가 극대화 된다. 작은 부분을 보고자 노력한다면 빅데이터에 내포된 큰 의미를 놓치게 된다.

 

빅데이터 전문가를 고용할까?

이 부분에 대해서 자동차 구매를 예시로 들면서 중요하게 짚어 주었다. 어딘가를 가기 위해서 자동차를 구매하려고 한다면 먼저 가는 곳이 어디고 그곳에 가는 여러가지 방법을 고민한 후에 자동차 구매를 고민해야 한다는 것이다. 이동 수단 만을 생각한다면 버스나 기차, 비행기도 이용할 수 있고 회수가 작다면 그것으로 만족을 할 수 있다. 멋내려고 빅데이터 분석을 하지는 마라.

올해 들어 공공기관에서 빅데이터 분석을 통한 보고서 사업이 많이 진행되고 있다. 모두가 다 그런 것은 아니지만 간혹 '빅데이터 분석을 통한 보고서'라는 장식을 위해 사업을 진행하는 경우가 있다. 어떻게 하더라도 분석을 하면 하지 않을 때 보다는 충분히 좋은 결과를 얻게 된다. 다만, 기존의 사고 방식으로 빅데이터 분석을 이끌려 하지 말고, 전문 조직의 조언을 충분히 수용해서 사업을 진행해야 진정 놀라운 결과를 얻을 수 있다.

 

빅데이터 시대, 가장 중요한 자산은 정보

'빅데이터 분석'과 '소셜 분석'을 헷갈려하는 경우가 있다. 빅데이터 분석 영역에서 다루는 데이터는 외부에 공개된 데이터와 내부 데이터 모두를 말한다. 아직 내부 데이터를 이 영역에 포함하여 분석한 적이 없어서 별개라고 생각하는 것이다.

Web이나 SNS 등 공개된 외부 데이터에 의존하여 분석을 지속한다면 해당 데이터를 보유한 기업은 가격을 올릴 것이다. 실제로 페이스북은 개인 담벼락에 전체공개된 글을 API를 통해 볼 수 있게 하였다가 지금은 원천 차단하였고, 개인 담벼락 글의 분석 내용을 판매하는 것으로 방향을 돌리는 듯 하다.

 

그러므로 내부에서 얻을 수 있는 데이터나 직접 오픈된 공간에서 서비스를 통해 데이터를 확보하는 것이 중요하다. 분석할 수 있는 데이터가 무엇이 있는 지 내부에서 찾아보고, 또는 새로운 데이터를 어떤 방식으로 만들 수 있는 지 고민하자. 데이터를 가진 자가 승리할 것이란 말이 바로 그것이다.


Comments