빅데이터는 '창조경제의 윤활유'…예측가능한 전략적 산업지표로

빅데이터 관련자료 2013. 9. 2. 10:39

빅데이터는 '창조경제의 윤활유'…예측가능한 전략적 산업지표로

 

빅데이터가 박근혜정부의 ‘창조경제’를 더욱 활성화할 촉매라는 데 이의를 달 사람은 거의 없다. 다만 빅데이터를 어떻게 활용하느냐의 문제에서는 뚜렷한 그림을 가진 사람은 많지 않다.

창조경제 구상은 ICT를 기반 삼아 ‘추격형’이 아닌 ‘선도형’으로 진화시키는 것으로 창의성 극대화 및 고용확대에 방점을 두고 있다.

즉, ①모든 산업에 ICT를 적용해 새 시장과 일자리를 창출하는 ‘스마트 뉴딜’ ②기술을 우선하는 기회 부여 ③국가 클라우드 컴퓨팅 센터 미래전략 분석결과의 개방과 공유 ③창업투자를 활성화해 청년부터 고령층까지 신사업을 추진하는 ‘창업국가’ ④상상력과 창의력, 잠재력과 열정을 기준으로 하는 채용하는 시스템 ⑤16개 지자체가 모두 참여하는 중소기업 지원정책 및 지방대학의 권역별 특성화 등이다.

이 중 ①, ③, ⑤번은 ‘빅데이터’와 직접적인 연관성을 갖는다. 빅데이터 분석이 산업과 인간행동양식, 기후와 구매패턴, 높은 빈도의 통신지역과 상권형성 간의 일정한 패턴을 보여준다면 산업은 효율성을 높일 수 있다. 이를 테면 점심시간 카드사용 내역을 업종별, 지역별, 시간대별, 날씨별, 이동장소별 등으로 다차원 분석만 해도, 시민들의 행동양식에 따라 적절한 마케팅 및 생산전략을 도출할 수 있고, 나아가 지역별 산업전략도 비교적 정교하게 수립할 수 있다. 여기에 지자체의 거버넌스, 연관 업종의 여러 상황별 동향이라는 변인을 추가할 경우 제2, 제3, 제4의 지역별 산업전략과 정책의 방점까지 유추해낼 수 있는 것이다.


 




광역단체 또는 기초단체별로 생성되는 경제, 산업, 사회지표가 가미돼 일정한 분석포맷과 해석기법을 만들어내고, 지역경제 활성화를 위한 세부적인 거버넌스 지침서가 빅데이터 분석을 통해 도출될 경우 이를 공공 부문 의사 결정시스템과 연동지어 산ㆍ학ㆍ민ㆍ관의 실천 지침도 비교적 정확히 끄집어낼 수 있다. 아울러, 창업의 생태계를 구성하는 세부 인자들을 종합 분석함으로써 가장 효율적인 창업을 향도할 수도 있을 것이다.

현재 한국생산성본부 등이 김포, 인천 U-city, 전주, 성남시를 상대로 진행 중인 지역 창조경제 플랫폼 사업에 빅데이터 분석을 적용할 계획이다.

아울러 성장동력을 실질적으로 도출하는 일도 시장성, 인간의 사용욕구 등을 다차원적으로 분석한 빅데이터가 담당할 것이다. 빅데이터가 만들어 내는 새로운 경제지표는 경제의 모든 주체들이 과거처럼 불확실성 속에서 헤매지 않고, ‘예측 가능성’ 속에서 올바른 길을 찾도록 인도할 것으로 기대된다.

김상수 기자/dlcw@heraldcorp.com


데이터 과학자만 있으면 OK? 빅데이터 분석팀의 5가지 필수 인력

빅데이터 관련자료 2013. 8. 30. 09:49







현업 사용자가 만족하는 빅데이터 분석 환경 구축 전략

1)빅데이터 분석, CRM의 쓰라린 추억을 잊었나

2)빅데이터 분석의 환상①누구나 게임 체인저가 될 수 있다?

3)해외 컨설팅 업체의 조언①딜로이트 “정보 자산을 알고 있는 실무자들과 먼저 논의하라”

4)해외 컨설팅 업체의 빅데이터 분석 조언②아링 “빅데이터를 비즈니스 임팩트로 전환하는 4단계”

5)데이터 과학자만 있으면 OK? 빅데이터 분석팀의 5가지 필수 인력

6)솔루션은 거들 뿐, 엔드유저가 외면하면 게임오버…실무자에 직관성과 속도를 허하라

7)진격의 셀프서비스BI: 데이터 디스커버리&비주얼라이제이션이 뜬다

8)빅데이터 분석의 환상②비정형 데이터가 모든 것? 정형 데이터와 통합·연관 분석 없인 껍데기

9)데이터 획득부터 분석, 판단, 실행까지 실시간 아니면 쓸모없다

10)빅데이터 분석이 일으킨 x86 서버의 반란…통합에서 다시 분산의 시대로



빅데이터 분석에 대한 관심이 높아지면서 데이터 과학자(데이터 사이언티스트)를 포함한 데이터 전문가 모시기 경쟁도 치열해지고 있다. 대학과 업계가 손잡고 개설한 데이터 전문가 과정도 여럿 있다. 하버드비즈니스리뷰(HBR)는 “많은 기업들이 데이터에서 가치를 도출하는 데 매달려 있는데 데이터에는 지나치게 많은 시간을 들이면서 데이터만큼 중요한 ‘사람들’에 대해선 별로 시간을 들이지 않고 있다”고 지적했다.

빅데이터 분석을 하려는 기업들이 사람에 대해서는 어떻게 투자해야 할까. 능력자를 고용하면 되는 걸까. 물론 그것도 중요하다. 그러나 빅데이터 분석에서 인력에 대한 투자는 뛰어난 숙련자를 고용하는 것 이상이다. HBR은 기업들이 두 가지 핵심 아이템을 도외시하는 경향이 있다고 지적했다. 그것은 △기업이 정말 필요로 하는 역할을 규명하는 것과 △기업의 고급분석 조직에 ‘고객 서비스’ 정신을 확립하는 것이다. 아래에 HBR의 ‘올바른 데이터 분석팀 꾸리기’ 조언을 요약 소개한다.

◇기업 빅데이터 분석팀 제대로 꾸리기=빅데이터 분석 전문가에 대한 수요는 갈수록 높아질 것으로 전망되고 있다. 매킨지 글로벌은 2018년경이면 미국에서만 분석 전문 인력이 수요보다 14만~19만명 부족할 것으로 추정한 바 있다.

하지만 “기업들은 수학과 과학 부문 인력을 채용하는 데 열 올리기 전에 빅데이터 시스템이 제대로 운영되도록 하기 위해 어떤 역할이 필요한지 규명하는 것부터 시간을 들여야 한다”는 것이 HBR의 조언이다. 기업마다 필요한 재능이 다를 수 있기 때문이다. 다만 HBR은 아래 5가지 역할(업무)이 기업의 고급분석 조직에 포함되어야 할 필수 스태프로 소개하고 있다.

①데이터 위생사(Data Hygienists)

우리말로 풀이하면 데이터 품질관리 책임자가 더 적절하다. 이들은 시스템으로 유입되는 데이터의 무결성과 적합성을 책임진다. 데이터의 전 수명주기에 걸쳐 무결성과 적합성이 유지되도록 해야 한다.

예를 들면 모든 시간은 동일한 가치를 가질까? 데이터세트를 연간 일수로 측정할 때 달력 기준으로는 연간 365일이지만 업무일수로는 260일이다. 만일 시간으로 따지면 연간 8765시간이 된다. 모든 가치는 동등해야 비교가 가능하다.

또 오래된 데이터 필드에 새로운 유형의 데이터를 오래된 필드명으로 넣는다면? 데이터베이스가 아닐 경우 새로운 제품 데이터는 이전의 제품 데이터를 덮어쓰게 되어 의미 없는 결과를 도출할 수 있다. 데이터 클린징은 데이터가 처음 캡처될 때부터 시작되어야 하며 이 데이터를 건드리는 모든 팀원들이 어떤 순간에나 지켜야 하는 것이다.

②데이터 탐색가(Data Explorers)

데이터 탐색가는 수많은 데이터를 걸러내 실제로 필요한 데이터를 발견하는 능력을 가진 사람이다. 이는 매우 중요한 업무다. 지금까지 단 한 번도 분석에 사용되지 않았던 데이터가 너무도 많기 때문이다. 또 따라서 이런 데이터들은 액세스하기 쉽게 저장되거나 계층화되어 있지도 않다.

현금등록기의 데이터가 좋은 예다. 현금등록기의 원래 기능은 기업들이 매출을 추적할 수 있도록 하는 것이다. 하지만 고객이 그 다음에 구매하려는 제품이 무엇인지 예측해내진 못한다.

③비즈니스 솔루션 아키텍트(Business Solution Architects)

비즈니스 솔루션 아키텍트는 데이터 탐색가가 발견해낸 데이터(비즈니스 목표를 위해 분석되어야 하는 데이터)들을 연계하고 구조화한다. 이 과정을 거쳐야 데이터를 분석할 준비가 되는 것이다.

비즈니스 솔루션 아키텍트들은 모든 사용자들에 대해 적절한 타임테이블에 따라 쓸모 있게 쿼리가 이뤄질 수 있도록 데이터를 구축한다. 어떤 데이터들은 분 단위로 액세스되지만 시간 단위로 액세스되는 데이터도 있다. 따라서 데이터는 매 분 혹은 매 시간 당 업데이트되어야 한다.

④데이터 사이언티스트

요즘 ‘핫’한 데이터 사이언티스트(데이터 과학자)의 역할은 비즈니스 솔루션 아키텍트에 의해 구조화된 데이터를 취하고 정교한 분석 모델을 만들어내는 것이다. 예를 들어 고객 행태를 예측하는 데 기여하고 고객 세그먼트 및 가격 최적화를 더 발전시킬 수 있다. 데이터 사이언티스트는 각각의 모델이 자주 업데이트되어 연관성을 지속하고 있는지 확인하는 책임이 있다.

⑤캠페인 전문가(Campaign Experts)

캠페인 전문가는 데이터 사이언티스트가 만들어낸 분석 모델을 현실에 적용하는 역할을 한다. 예를 들어 어떤 고객이 어떤 마케팅 메시지를 언제 받아야 하는지 구체적인 마케팅 캠페인을 제공하는 기술적인 시스템에 대해 통달해야 한다.

캠페인 전문가는 분석 모델로부터 습득한 것을 활용해 채널의 우선순위를 정하고 캠페인들을 배치한다. 예를 들어 규정된 세그먼트의 행태 이력을 분석해 이를 토대로 어떤 고객에게는 이메일을 처음 보낸 후 48시간 이내 우편물을 보내는 것이 가장 효과적이라는 사실을 도출할 수 있다.

HBR은 빅데이터 팀 내 데이터 이동 지도를 그리는 것이 중요하다고 조언한다. 사람과 머신이 주고받는 모든 데이터는 오너가 명확해야 한다. 이러한 매핑은 빅데이터 분석 팀원들이 개별 작업을 완료하는 데 그치지 않고 각각의 역할에 따른 업무를 수행하고 다음 사람에게로 완전하게 넘기는지 확인할 수 있도록 해준다.

◇데이터 분석팀에 고객 서비스 문화 개발하기=아무도 사용하지 않는 제품이나 서비스를 개발하는 것은 의기소침한 일이다. 따라서 데이터 분석팀은 자신들이 만들어낸 분석 모델이 기업 내부 비즈니스 유저에게 어떤 혜택을 가져다줄지 시연하고 이들을 설득해야 한다. 직장 동료인 비즈니스 오너들을 고객으로 생각하는 사고방식의 전환이 필요하다.

유통업체들은 성공하려면 고객을 이해해야 한다고 종종 말한다. 데이터 분석팀 역시 마찬가지다. 현업 실무자(비즈니스 오너)의 요구 사항을 이해하기 위해 정기적인 미팅을 가지고 있는가? 분석팀이 개발한 분석 모델의 퍼포먼스에 대해 피드백을 얻고 있는가?

데이터 분석팀은 항상 자문해야 한다. “어떤 사업부의 누가 우리의 분석 결과로 도움을 받을 수 있는가” 그리고 “비즈니스 유저들이 우리의 분석이 자신들의 성공에 도움을 주었다고 동의하는가”라는 질문에 말이다.

기업 내부 고객(비즈니스 실무자)이 데이터 분석팀을 신뢰하지 않고 분석 모델에 대한 확신도 없을 때 빅데이터 이니셔티브는 실패할 가능성이 높다. 그리고 신뢰는 투명성에서 비롯된다. 데이터 분석팀은 누가 무엇에 대해 어떤 작업을 하고 있는지 완전히 공개해야 한다.

또 현실적인 완료 예상 시간을 알려주어야 한다. 내부 고객들이 정보 기반의 의사결정을 내릴 수 있도록 데이터 분석팀이 구축할 분석 모델을 결정할 때 비즈니스 실무자들에게도 명확히 알려줘야 한다.

데이터 분석팀 내 서비스 조직의 문화를 적용하기 위해 비즈니스 성공에 따른 개인별 퍼포먼스를 측정할 필요가 있다. 또 얼마나 많은 새 분석 모델들이 내부 고객들(비즈니스 실무자들)에 의해 사용되고 있는지 추적해야 새로운 결과를 알 수 있다.

어떤 기업들은 분석 모델이 얼마나 혁신적이냐보다 내부 고객들이 얼마나 빨리, 그리고 광범위하게 분석 모델을 적용했는지에 기반을 두고 빅데이터 팀의 팀원들에게 보너스를 주기도 한다. 기술 중심 사고방식이 종종 겪는 오류를 미연에 방지하기 위해서다. 그 오류란 “나는 대단히 뛰어난 분석 모델을 개발했다, 아무도 사용하지 않는 것은 내 잘못이 아니다”라는 주장이다. 이는 또한 분석 모델이 비즈니스에 실제로 영향을 주기 전에 분석 모델 구축 단계에서 문제의 싹을 잘라낼 수 있도록 해준다.

빅데이터 분석팀을 성공적으로 조직하고 구성하기 위해서는 적절한 인력과 적절한 문화 둘 다 필요하다. 빅데이터 분석이 본격화되면 데이터 분석팀은 데이터를 처리하는 것보다 비즈니스 실무자에 데이터를 서비스하는 데 더 많은 시간을 보내야 할 것이다.

박현선기자 hspark@etnews.com


빅데이터, 이름에 휘둘리지 말아야

빅데이터 관련자료 2013. 8. 30. 09:45


 

출처 : http://legalinsight.co.kr/archives/48198



말만 무성하던 빅데이터가 올해부터 `눈에 보이기` 시작하는 듯하다. 사업 주체는 주로 공공기관과 대기업이다. 올해 상반기 발주된 공공 빅데이터 사업만 20여건이다. 지난해 발주건수가 10건에도 못 미쳤으니 공공기관의 높아진 관심을 알만하다. 삼성전자, 현대자동차, 포스코 등 내로라하는 대기업들도 나섰다.


[기자수첩]빅데이터, 이름에 휘둘리지 말아야

공개된 수준이 이 정도다. 아직 드러나지 않은 사업이 적지 않다는 게 업계 분석이다. 많은 공공기관이 본격적인 사업을 위해 빅데이터 정보화전략계획(ISP)을 세우고 있다. 일부 대기업은 전문가를 영입해 내부 작업 중이다. 내년에는 빅데이터 사업이 `쏟아질` 것이라는 예측도 무리가 아니다.


그런데 꼼꼼히 살펴보면 고개가 갸우뚱해진다. 관련 없는 듯한데 `보란 듯이` 제품과 사업에 빅데이터를 붙인 기업과 기관이 부지기수다. 반면에 정작 빅데이터라 생각되는 사업임에도 굳이 그 이름을 사양하는 곳도 있다. 빅데이터 사업은 넘치는데 정작 정의는 아직 정립되지 않은 탓이다.


더 큰 문제는 빅데이터 명칭을 악용하는 기업·기관이 있다는 점이다. 과거 출시한 하드웨어나 소프트웨어에 빅데이터라는 이름을 붙여 판매하는 기업도 종종 보인다. `보여주기식`으로 억지로 빅데이터를 끌어들이는 경우도 있다. `우리만 안 한다고 하면 뒤처지는 것 같아서`라는 게 이유다. 공공기관이 주로 이런 덫에 걸려 있다.


빅데이터 시장은 이제 개화하는 단계다. 초기에 이런 문제를 해결하지 않으면 향후 치명적인 약점으로 남는다. 제대로 된 시장 형성이 어려울 뿐 아니라 발주처는 많은 돈을 투자하고도 원하는 결과를 얻지 못할 수 있다. 솔루션·프로젝트 기업도 향후 해외 진출시 저평가 받을 수 있다.


무엇보다 주목할 것은 실제 사업성과가 중요하다는 점이다. 빅데이터라는 개념도 결국 보다 나은 성과를 내기 위해 만들어졌다. 이름은 아무래도 상관없다. 가치 없다고 생각했던 정보를 잘 활용해 얼마나 통찰력을 얻을 수 있느냐가 핵심이다. 실체보다 말이 앞선 빅데이터는 우리가 원하는 게 아니다.


출처 : http://www.etnews.com유선일기자 | ysi@etnews.com

누구나 다 아는 대용량 데이터 분석 기술 (Big Data Analytics)

빅데이터 관련자료 2013. 8. 29. 11:33


 출처 : 우승이의 블로그


최근 클라우드 컴퓨팅과 더불어 대용량 데이터 분석기술 (Big Data Analytic) 에 대한 얘기들이 관심들을 받고 있습니다. 제가 회사를 옮긴 후 2009년초 부터 이와 관련하여 프로젝트를 추진해온 경험들과 그간의 트렌드를 고려해서 한번은 정리를 해야지 해야지 하면서 게으름을 피우고 있었는데 최근 여러모로 스스로 동기부여되는 일도 있고해서  아무래도 한번은 정리하고 넘어가야 할 것 같아서 포스팅을 하게되었습니다. 다 쓰고 보니 글의 양이 제법 되는 군요.

나름 이쪽의 일을 3년여간 해온 경험과 최근에 이러저러 알게된 관련한 얘기들을 두서없이 정리하였습니다. 대용량 데이터 분석과 관련해서 최근 여러 컨퍼런스에도 언급되고 있는 얘기들중에도  중복된 내용들도 있지만 제 개인적인 관점에서 생각하고 참고한 내용들을 중심으로 정리하였고 원래 이 분야에 계신 분들보다는 이 분야에 관심이 생기신 분들에게 작은 도움이 되지 않을까 생각되네요.

1. 대용량 데이터란 무엇인가?

도대체 대용량 데이터분석이 무엇이냐? 라는 질문부터 생각을 해봐야겠지요. 그전에 그럼 또 대용량데이터는 얼마만한 크기야? 라고 말하는 분들도 있을 것입니다. 대용량데이터에 대한 정의는 일반적으로 현존하는 기술 수준 대비 처리하기 힘든 규모의 데이터 사이즈를 대용량 데이터라고들 합니다. 즉, 기술의 발달에 따라 1950년대에는 16KB 가 빅데이터라고 취급되던 때도 있었고 , 기가바이트에서 최근 테라바이트를 훌쩍 넘어서 페타, 제타 에서 요타바이트에 이르는 규모를 대용량데이터라고들 말하고 있습니다. 하지만 이러한 데이터의 사이즈만을 가지고 데이터를 다루는 문제를 대용량데이터분석이라고 생각해서는  문제가 있습니다. 현실적으로 대용량데이터라는 것은 처리해야 할 데이터의 크기뿐 아니라 처리해야 하는 방식 , 데이터의 구조를 모두 고려해야만 대용량데이터분석이 얼마나 어렵고 어떻게 처리를 해야할 지를 이해할 수 있습니다.

대용량데이터의 3가지 요소

대용량데이터란 무엇인가? 를 설명할 때 다음과 같이 크게 세가지 요소를 들수 있습니다. 데이터의 크기 (Volume), 데이터가 흘러들어오는(Feed) 속도(Velocity) , 데이터의 형태(Variety).




[출처 TDWI Research 2011 Big Data Analytic Report] 


2. 왜 대용량 데이터 분석이 어려운가?

지금까지의 데이터 분석 기술은 대부분 한대의 컴퓨터상의  인메모리, 파일시스템,데이터베이스에 데이터를 저장하고 이를 기반으로 데이터를 분석하는 알고리즘을 실행하는 구조였습니다. 대부분의 통계툴들은 여전히 인메모리에 데이터를 로딩해서 통계/분석/마이닝 알고리즘을 실행하는 것이 기본구조입니다. 이것이 데이터베이스시스템이 나오면서 대용량의 데이터를 처리할 수 있는 규모가 커지게 되었습니다. 하지만 여전히 이러한 분석 시스템의 구조는 싱글머신/싱글코어에 최적화되어 있었으며 , 최근에야 싱글머신/멀티코어에서 실행할 수 있는 다양한 알고리즘의 개발과 시스템들이 등장하고 상용화되어 쓰이고 있지요. 지금까지 빅데이터라고 하는 것을 처리하기 위해서는 몇십기가바이트 인메모리 또는 몇백기가 메인메모리와  SAN 스토리지를 이용해서 대용량의 파일시스템을 마운트할 수 있는 고사양 고가의 하이엔드급 서버를 이용해서 DW, DM 을 구축해왔습니다. 데이터 증가에 따른 시스템 확장은 더 고사양의 장비로 교체하거나 CPU/메모리/디스크 증설이라는 방식을 이용해서 하는 scale-up 방식만이 유일했습니다. 이러한 장비에 최적화된 소프트웨어의 업그레이드와 이에 상응하는 통계/데이터마이닝 소프트웨어 라이센스를 고가로 함께 구매해서 해결해왔던 것입니다. 문제는 최근 구글,아마존, 야후!, 페이스북, 트위터와 같은 인터넷 기업들이 고객들의 사용로그와 트랜잭션 로그를 기반으로 데이터 마이닝과 이를 기반으로 하는 서비스, 광고 플랫폼을 구축하고자 하면서 그 한계에 이르게 된 것입니다. 테라바이트에서 페타바이트규모의 데이터를 분석해서 검색엔진, 소셜서비스, 광고등을 하기에는 기존의 시스템 , 소프트웨어 아키텍쳐로는 불가능했던 것입니다. 뿐만 아니라 이들이 처리해야 하는 데이터들은 데이터베이스에 깔끔히 정리된 정형돠된 데이터가 아니라 웹을 통해서 수집한 다양한 비정형데이터와 함께 비디오, 사진, 음향등 다양한 미디어 정보를 수집해서 분석해야 하기때문에 더욱 힘들어질 수밖에 없게 된것입니다.

3. 관련 기술

구글은 이러한 측면에서 초기에 MapReduce 라고하는 프로그래밍 모델과 대용량 데이터 분산처리프레임워크 과 대용량 데이터를 효과적으로 저장하고 확장할 수 있는 GFS(구글파일시스템) 기술을 확보하고 이를 적극적으로 활용하고 있었고, 이를 바탕으로 구글만의 검색기술과 검색서비스를 가능하게 한것입니다. 이러한 그들만의 기술이 논문으로 공개되면서 이를 기반으로 오픈소스 형태의 다양한 대용량 분산파일시스템, 대용량 분산처리프레임워크등이 등장하게 되었습니다.

구글이 가진 기술을 참고해서 등장한 다양한 맵리듀스프레임워크중에서 가장 주목을 받고 그 기반으로 커다란 에코시스템을 갖추게 된 것이 바로 자바 기반의 아파치 하둡(Apache Hadoop) 입니다. 구글이 발표한 분산 프레임워크 논문을 바탕으로 야후!가 오픈소스로 개발한 하둡은 예전 리눅스의 등장으로 OS 시장에 있어서 틀을 크게 바꾸었듯이 빅데이터(대용량데이터) 분석 시장에 있어서 커다란 대안으로 등장을 하고 있습니다. 야후! 내부에서 사용하던 이 기술이 오픈소스로 발표되면서 크게 주목을 받으면서 사실상 현재 페이스북, 트위터, 링크드인, 이베이, 아마존 등 많은 글로벌 인터넷, 커머스 업체들은 빅데이터 처리를 위해서 하둡의 사용은 당연시 하고 있으며 이를 기반으로 한 다양한 처리 프레임웍이나 기술들을 공개하고 있고 그 저변을 매우 빠르게 넓혀가고 있습니다.

국내의 대표 포털 네이버, 다음 등 국내 대표 인터넷 기업들 뿐 아니라 S클라우드를 준비하고 있는 삼성전자와 같은 제조사 역시 스마트폰, 스마트 디바이스를 위한 컨텐츠 서비스 와 이를 통해서 발생하는 엄청한 로그 데이터 처리를 위해서 하둡을 적극적으로 활용하고 있습니다.  빅데이터 분석이라는 트렌드는 하둡이 없었다면 불가능했을지 모릅니다. 물론 좀더 들여다보면 야후!가 하둡을 오픈소스로 공개할 수 있었던 문화(?), 클라우데라(Cloudera)와 같은 하둡배포판을 만드는 회사의 등장과 이에 대한 투자들이 이 모든것을 촉발한 것이겠이죠.  또한 이러한 오픈소스인 하둡이 저비용으로 빅데이터를 처리할 수 있다는 장점이 크게 부각된 이면에는  전세계적인 경기침체로 효율적인 IT투자에 대한 관심이 높아진 것도 들 수 있겠죠. 최근 인터넷 기업뿐 아니라 글로벌 대기업이나, 금융회사들이 자신들의 트랜잭션 분석이나 사용로그 분석을 위해서 하둡에 대해서 크게 관심을 가지고 있고  오라클, IBM, EMC, SAS 등의 DW 시장의 강자들이 자신들의 솔루션에 하둡을 결합해서 제품과 솔루션을 내놓는 것을 봐도 하둡을 기반으로 하는 대용량데이터분석시장의 큰 변화를 느낄 수 있습니다.

참고로 맵리듀스 프레임워크는 하둡이외에도  파이썬언어 기반의 디스코(DISCO) , MS 닷넷 기반으로 만들어진 MySpace 의 Qizmt 도 있고 이외에도 다양한 맵리듀스 프레임워크들이 있습니다만 하둡만큼 크게 관심을 받지는 못하고 있습니다.

하둡은 크게 두개의 요소로 나뉘어져 있습니다. 하나는 맵리듀스프레임워크 (MapReduce Framework) 와 하둡분산파일시스템(HDFS) 입니다. 분산파일시스템은 반드시 HDFS 을 사용할 필요는 없습니다. 하둡은 다양한 분산파일시스템과 연동할 수 있도록 구현되어 있고 대표적으로 아마존의 클라우드 서비스를 이용해서 하둡 어플리케이션을 개발하는 이들은 아마존의 분산파일시스템인 S3 을 이용하고 있습니다.

초기에는 하둡을 이용해서 대용량데이터분석을 위해서는 자바언어를 이용해서 직접 프로그래밍을 해야했습니다. 하지만 하둡으로 데이터 분석 로직을 손쉽게 구현할 수 있는 프로세싱언어인 pig와 SQL과 같은 언어를 제공하는 hive 이 등장하고 최근 많이 안정화되면서 이에 대한 활용이 늘어가고 있습니다. 일일히 자바프로그램을 개발하는 것에 비해서 상대적으로 성능이 떨어지지만 개발 생산성과 디버깅등의 편이성 때문에 실무에서의 활용이 커지고 있습니다. 프로그래머 입장에서는 pig가 좀더 익숙한 반면  데이터베이스을 기반으로 분석업무를 하는 데이터마이너들에게는 hive가 좀더 편할 것입니다. 최근엔 오픈소스 통계툴로 유명한 R이 하둡과 연동되면서 이에 대해서 관심을 가지는 이들도 늘어가고 있는 것 같습니다. 아무래도 기존 데이터분석,데이터마이닝을 하는 데이터분석가들에게는 통계툴이 더 익숙할테니까요. 이렇듯 하둡을 중심으로 대용량데이터분석에 필요한 다양한 기술들이 통합되고 응용되면서 하나의 에코시스템을 이루어가고 있고 관련 솔루션 업체, 스타트업들이 많이들 등장하고 있습니다.

이러한 프레임워크와 도구 측면과 더불어 고려해야 할 것이 있습니다. 현재까지 대용량 데이터분석 및 마이닝 알고리즘들이 이러한 분산환경에 최적화되어 개발된 것들이 많지 않다는데 있습니다. 아마도 구글이나 야후! 같은 곳에서는 이러한 알고리즘들이 내부적으로 개발되어 활용되고 있겠지만 공개된 것은 그리 많지 않은 상황입니다. 대용량 데이터의 분석을 위해서는 앞서 말한 분산처리를 하는 프레임워크와 분산파일시스템도 중요하지만 이러한 컴퓨팅 환경에서 데이터 분석을 효율적으로 할 수 있는 처리하 수있는  확장성있는 분석기법과  알고리즘의 확보가 매우 중요합니다.  최근 하둡이 유행함에 따라 학계나 업계에서 다양한 분산 알고리즘에 대한 연구와 발표가 있지만 여전히 다양한 분야에 하둡의 맵리듀스 프레임워크의 장점을 다 살려서 활용하기에는 부족함 면이 있습니다. 실제 실상을 들여다보면 하둡을 활용한다고 도입을 검토하다가도 저비용의 분산파일시스템으로만 활용하고 데이터  분석이라고 해도 매일매일 쌓이는 대용량의 웹로그나 거래로그에 대한 기초적인 통계정도를 뽑아내는 정도로 활용이 그치는 경우가 많습니다. 물론 이러한 것들도 기존의 환경에서는 힘들었던게 사실이고 하둡초기에는 이러한 역할만으로도 충분히 그 가치가 인정받는 경우도 있습니다만 구글이나 아마존과 같이 광고의 추천이나 상품 추천을 위한 다양한 마이닝알고리즘을 활용하는데 여전히 많은 연구가 필요할 것입니다.

아파치 마하웃(Apache Mahout) 프로젝트는  다양한 중요한 마이닝 알고리즘들을 하둡 프레이워크상에서 구현해서 오픈소스로 공유하자는 차원에서 만들어졌고 현재 0.5 버전이 릴리즈된 상태입니다. 이미 많은 사람들이 마하웃의 알고리즘을 직접 이용하거나 최적화해서 자신들의 각 분야에서 활용하고 있습니다. 향후 아파치 마하웃 프로젝트는 꾸준히 성장해서 시간이 지나면 하둡기반의 대용량 마이닝 알고리즘을 제공하는 주요 소스가 될 것입니다.

이와 더불어 하둡파일시스템(HDFS) 을 기반으로 하는 대용량 데이터베이스인 HBase 역시 주목을 받고 있습니다. 이 역시 구글의 BigTable 의 아키텍쳐를 참조해서 만든 오픈소스 대용량 데이터 스토어 기술입니다.  최근  NoSQL 데이터베이스라해서 오라클 DBMS, MSSQL , MySQL 과 같은 관계형데이터베이스의 한계 또는 확장성등의 단점을 해결할 수 있는 대안으로 보다 단순한 아키텍쳐을 가졌지만  분산컴퓨팅 환경에 적합한 데이터 스토어 기술들이 등장하고 있는데 그 대표적인 것으로 바로 이 HBase 을 들 수 있습니다. 이밖에 하둡파일시스템을 기반으로 하지 않지만 BigTable 과 유사한 형태의 Cassandra 와 같은 기술들이 함께 주목을 받고 있습니다. NoSQL은 사실 별도로 그 배경과 기술을 설명을 할 필요가 있는 거라서 여기서는 이정도로 줄이도록 하겠습니다.



[출처 Cloudera] 

4. 국내 대용량 데이터분석 시장

종종 이 부분에 대한 질문을 받을때가 있습니다. 한마디로 이게 돈이 되는 거냐? 라는 것이죠. 특히 국내에서 말이죠.

분명한 것은 미국의 경우에는 그 시장이 분명히 있고 오픈소스의 기업내 적용을 위하여 안정적인 하둡배포판을 만들고 컨설팅 및 교육을 하고 있는 Cloudera 와 같은 경우는 천이백만불의 투자를 받고 다양한 분야에 하둡 활용을 위해서 홍보와 비지니스를 하고 있습니다. 특히 올해에는 야후!에서 하둡을 직접 개발한 팀이 분사를 해서 HortonWorks 라는 회사를 만들어서 투자를 받고 하둡의 차세대 버전의 아키텍쳐와 버전 업그레이드를 진행하고 있습니다.  HortonWorks 는 Cloudera 와 달리 하둡 코어아키텍쳐에 좀더 많은 투자를 하고 있는 것으로 보이고 최근 오라클 뿐 아니라 마이크로소프트의 윈도우상에서도 (아마도 마이크로소프트의 클라우드 서비스상에서) –  하둡을 사용하기 위해서 전략적 제휴를 맺고 추진중인 것으로 알려져 있습니다.

재미있는 사실은 마이크로소프트의 빙닷컴 검색엔진이 파워셋이라는 회사를 인수해서 그 기반으로 만들었는데 이 회사가 바로 하둡을 이용하고 있었고  HBase 의 개발이  바로 이 파워셋의 시니어 엔지니어에 의해서 시작되었습니다.

이밖에도 미국에는 하둡의 소스코드를 수정해서 리얼타임 데이터를 처리할 수 있도록 하거나 아예 하둡의 소스코드를 뜯어 고쳐서 현재 하둡이 가지고 있는 여러가지 문제점(특히 하둡의 네임노드 가용성 문제, HDFS 와 POSIX 와의 연계) 을 개선하여 상용 버전을 만들어서 사업을 시작하는(MapR)  스타트업들이 다수 등장하고 있습니다.

국내에서는 대표적으로 넥스알(NexR) 이 하둡 및 클라우드 기술을 기반으로 다양한 컨설팅 및 사업을 추진했었고 작년말 KT 에 자회사로 인수되면 크게 주목을 받았었습니다. 최근에는 KT 이노츠와 합병되면서  KT 클라우드웨어라는 회사로 거듭나면서 사업 영역과 규모가 더욱 커진 느낌입니다. 문제는 이 넥스알이 국내 시장에서 이러한 대용량데이터분석 시장을 선도하고 있을까요? 글쎄요 저는 잘 모르겠습니다.  이제는 KT의 클라우드 비지니스를 추진할 수 있는 기술회사로써 역할을 다하고 있는지는  모르겠지만 KT이외의 사이트에서 제대로 비지니스를 하고 있는지 모르겠습니다. 넥스알은 꾸준히 국내의 하둡 오픈소스 커뮤니티의  활동을 적극 지원하고 있고 최근에는  RHive 라고 하는 R 와 Hive 을 결합한 시스템을 오픈소스로 공개하는 등 국내의 하둡저변 확대에 많은 지원을 아끼고 있지 않습니다만 이것이 직접적으로 사업과 연결되어서 수익을 올리고 있다고는 생각되지 않습니다.

넥스알이 KT에 인수된 이후에는 국내의 특성상 KT이외에의 다른 대기업에 비지니스하기가 쉬워지지 않게 되자 그루터라는 회사가 그 역할을 대신하고 있다는 생각이 듭니다. 이 회사에는 걸출한 하둡 엔지니어 분들이 몇몇 계시는 걸로 알고 있습니다. 대표이사님도 개발을 직접한다고 하시더군요. 다양한 분야와 업체에 컨설팅과 개발을 해오면서 기술력을 인정받으면서 기업 인지도가 매우 높아졌습니다. 하지만 여전히 국내에서 하둡을 기반으로 하는 대용량데이터분석 시장에는 한계가 있는 것이 사실입니다. 오히려 국내의 경우에는 이러한 업체들의 컨설팅이나 솔루션을 활용하기 보다는 회사내에 엔지니어를 육성하거나 팀을 꾸려서 하둡 및 관련 대용량 데이터 기술과 더불어 클라우드 컴퓨팅 기술을 내재화 하는 것에 초점을 맞추고 있습니다. 물론 잘하고 있는 곳도 있고 그렇지 못한 곳도 있습니다.

사실 구글, 야후! , 트위터, 페이스북, 링크드인등 왠만한 인터넷서비스 기업들은 자체팀을 꾸려서 이러한 대용량 데이터 분석 기술과 자신들만의 프레임워크를 개발하고 플랫폼화 하고 있습니다. 심지어 자신들의 기술을 기꺼이 소개하고 오픈소스로 공개하고 있기도 합니다.

이와 마찬가지로 국내의 네이버,다음도 그렇고 특히 삼성전자의 같은 디바이스 제조사도 스마트폰, 스마트TV 시장이 커지면서 이에 따른 자체 서비스의 확장성과 사업, 기술 경쟁력 강화를 위해서 자체기술인력을 확보하고 기술 내재화하면서 동시에 아마존등과 클라우드 서비스 협력을 강화하는 등의 움직임을 발빠르게 진행하고 있습니다. 많이 알려져있지는 않지만 제가 몸담고 있는 SK 플래닛의 경우도 분사하기전 SK텔레콤 시절인 2008년도부터 하둡 및 관련 대용량 데이터 분석 기술과 프레임워크에 많은 투자와 내재화에 힘을 쓰고 있습니다.

하지만 결론적으로 말하면 국내에서의 대용량데이터분석시장은 상당히 제한적일것이다라는 것입니다. 대기업들은 여전히 오라클, IBM, HP, EMC와 같은 기존 선도 업체의 솔루션들을 선호하고 있고 이러한 업체들 역시 발빠르게  하둡을 자신들의 솔루션과 결합하면서 가격경쟁력을 갖추고 준비를 하고 있기 때문에 대용량데이터분석 사업을 위해서 단순히 하둡기술을 가지고 있다고 어설프게 기업시장에 뛰어드는 것보다는 금융,제조,통신, 인터넷등 특정 산업분야의 분석 경험을 가지고 있는 것이 경쟁력이 있다고 할 수 있습니다. 여기에 하둡과 같은 기술을 결합해야만 시장 경쟁력을 갖출 수 있을 것입니다. 하지만 이것도 원론적인 얘기이고 안타깝지만 앞서 말씀드렸듯이 국내에서는 이러한 사업적 기회를 가지기는 쉽지 않다고 봅니다. 현실적으로 생각해봐도 규모가 어느정도 되는 기업이 아니면 이러한 대용량 데이터 자체를 접할 기회가 많지 않을텐데 작은 중소 소프트웨어 업체가 대기업을 상대로 대용량데이터분석 사업을 하기는 더욱 쉽지 않을 것입니다.

5. 향후 트렌드

그렇다면 앞으로 대용량 데이터 분석기술은 어떤 방향으로 발전해 갈까요?

가장 주목을 받고 있고 다양한 시도가 이루어지고 있는 것은 바로 실시간 대용량 데이터 분석 기술입니다. 물론 여기서 말하는 실시간의 의미는 디바이스에서 말하는 하드웨어 레벨의 실시간 데이터 프로세싱과는 다릅니다.

비지니스 레벨 또는 서비스 레벨에서의 실시간 데이터 분석기술이라고 생각하시면 됩니다. 예를 들어서 새로운 광고를 웹사이트에 노출 시켰을 때 방문자들의 클릭 스트림을 얼마나 빨리 처리해서 고객들의 반응을 분석하고 리포팅하는 것들도 하나의 실시간 처리일 수도 있고, 대표적으로 엄청나게 폭주하는 주식거래의 실시간 트랜잭션을 분석해서 위법을 저지르는 사람들을 찾아내는 것들도 한 예가 되겠지요. 이러한 실시간 데이터 분석을 위해서 주목 받는 기술 중에 하는 Complex Event Processing (CEP) 라고 하는 기술 입니다. 다시 말하면 실시간으로 발생하는 복수의 이벤트로부터 특정 패턴을 찾아내서 원하는 데이터 처리나 알림 서비스가 가능하게 하는 기술이라고 할 수 있습니다.

기존에는 이러한 이벤트 프로세싱기술이 요구조건에 맞추어서 메인메모리가 큰 장비에서 돌아갈 수 있도록 프로그래밍을 해서 최적화해왔다면 최근에는 이러한 이벤트를 처리하고 보다 고수준의 언어를 제공해서 보다 손쉽게 복합적인 이벤트 프로세싱과 로직을 적용할 수 있는 프레임워크들이 다수 등장하고 있습니다.  TIBCO, Oracle, IBM과 같은 솔루션업체들은 이미  CEP솔루션을 제공하고 있고 이밖에도 EsperTech 라는 회사는 Esper 라고 하는 자바와 닷넷에서 사용할 수 있는 CEP 엔진을 오픈소스로 공개하고 있습니다. 하지만 이러한 솔루션들은 확장성에 한계가 있을 수밖에 없습니다. 하둡과 같은 대용량의 데이터를 처리하기 위한 시스템 아키텍쳐를 갖추고 있지 않기 때문에 CEP을 운영하기 위해서는 프로세싱 장비의 사양이 발생하는 이벤트와 처리해야하는 로직에 따라서  높아 질 수 밖에 없고 필요한 경우에는 서비스에 따라 입력되는 데이터 스트림별로 CEP 장비를 적용해서 분산처리하는 구조로 대응하도록 해야 합니다.

IBM은  최근에 대용량의 스트림 데이터처리를 위해서 상대적으로 시스템의 확장성이 뛰어나고  다양한 실시간 이벤트 스트림 타입을 지원하는, 즉 기존 텍스트나 정형화된 이벤트 스트림뿐아니라  실시간으로 센서로 부터 쏟아져 들어오는 대용량 데이터 스트림에서부터 이미지, 동영상, 음향 데이터등에도 적용이 가능한, InfoSphere Stream 이라는 스트림 프로세싱 엔진을 상용화해서 내놓고 있습니다.  들리는바에 의하면 9.11 테러 이후 미국정보 요청에 의해서 테러방지를 위한 감시목적을 위해서 IBM에서 연구/개발한 기술을 상용화한것이라고 합니다.

올해 페이스북의 경우에는 하둡과 HBase 을 기반으로  페이스북의 실시간 메신저 서비스를 구현해서 여러 컨퍼런스에 발표하고 있습니다. 페이스북과 같은 규모의 서비스업체에서는 대용량 이벤트 프로세싱을 하는데는 CEP 와 같은 기술로는 분명히 한계가 있을 것입니다. 그래서인지 이들은 배치 프로세싱에 최적화되어 있는 하둡을 직접 수정하고 최적화해서 자신들이 원하는 실시간 프레임워크를 자체적으로 구축해서 서비스를 직접하고 있습니다.

이렇게 대용량 실시간 데이터 분석에 있어서 몇몇 시도와 솔루션들이 소개되기 시작하고 있기는 하지만 여전히 해결해야 할 난제들이 남아 있습니다. 특히 다루게 되는 데이터의 형태가 점점 복잡해지고 있고  특히 비디오, 사진이미지, 음향/음성과 같은 멀티미디어 스트림을 실시간으로 분석하고 결과를 내기 위해서는 기술적으로나 학술적으로도 많은 연구와 노력이 있어야 할 것입니다.

마지막으로 대용량 데이터 분석 분야에서 주목해야 할 부분은 대용량 데이터 비주얼라이제이션(Visualization) 분야입니다. 데이터의 규모가 워낙에 커지기 때문에 효과적으로 데이터를 보여줄 수 있는 표현 방식과 이를 프로세싱하기 위한 알고리즘 그리고 이러한 것들이 결합된 편리한 비주얼라이제이션 도구에 대한  요구가 늘어가고 있지만 아직까지 두드러지게 이 분야에서 내놓고 말할 것은 없어 보입니다. 이 분야 역시 구글링을 해보면 IBM의 연구 결과들이 일부 검색되기도 하지만 대부분 특정 분야에 맞게 특정한 목적에 맞게 개발된  도구들이 대부분입니다. 최근 관심을 끌고 있는 소셜 네트워크의 모양을 적절히 보여줄만한 도구들도 그렇게 많은 편은 아니더군요. 아무래도 비주얼라이제이션 처리를 위해서는 데이터를 인메모리에 올려서 처리해서 보여줄 수 밖에 없기 때문에 대용량의 데이터를 네비에이션 하기 위해서는 적절한 수준에서 데이터의 속성을 줄이거나 축약하는 방법과 부분부분 필요한 양만큼만 로딩을 해서 네비게이션 하는 방법이 있겠죠. 아무튼 이 분야도 앞으로 주목해볼만한 분야라고 생각됩니다. 결국 분석된 데이터를 어떻게 표현하고 보여주는 것이 최종 결과가 아니겠습니까?

6. 마치면서

이상으로 대충 제 머리속에 있는 대용량 데이터 분석 기술 및 시장 전반에 대해서 정리를 해보았습니다. 이 분야은 여전히 연구 개발해야할 부분이 많고 동시에 매우 빠르게 발전하고 있습니다. 특히 올해 하반기부터 소위 업계의 리더들이라고 하는 오라클, SAS, IBM, EMC, HP 등등 글로벌 솔루션 업체들이 본격적으로 하둡이라는 기술등 관련 솔루션들을 결합해서 대용량 데이터라는 키워드로 마케팅과 영업을 본격적으로 시작했습니다. 아마 지금까지의 오픈소스기반 스타트업들이 끌고 오던것과는 양상이 분명 달라질 것입니다. 앞으로 Cloudera 나 Hortonwork 와 같은 회사가 지금의 레드햇과 같은 기업으로 성장할지 아니면 다른 기업에 의해서 인수될지는 모르겠지만  기존 대형 솔루션 업체들의 참여로 대용량 데이터와 관련한 스토리지, 시스템, CPU, 분석기술의 발달과 더불어 시장의 규모는 더욱 커질 것입니다.

따라서 국내에서 관련 기술을 가진 업체나 엔지니어들에게 있어서는 내부의 분석역량을 높이는데 있어서 그 역할이 커지는 반면에 사업적인 측면에서는 더욱 어려워지고 그 사업의 기회는 더욱 줄어들겠네요

이러나 저러나 결국 글로벌 솔루션 업체들이 이 시장을 다시 나눠가지게 될까요? 안타깝지만(?) 그럴 확률이 많다고 생각이 드네요. 대부분의 국내 소프트웨어 업체들은 소프트웨어든 솔루션이든 제대로 만들어 팔아본 경험이 별로 없으니까요. 제 개인적으로도 여러가지 생각들이 떠오르는 군요.

아무쪼록 이 글이 대용량 데이터 분석기술이라는 분야에 관심을 가지신 분들께 조금이나마 도움이 되었으면 합니다.



 출처 : 우승이의 블로그


구글, 감정데이터도 판다

빅데이터 관련자료 2013. 8. 29. 10:03

구글 글라스 사용자 감정읽어 광고가치 측정하는 특허 출원


 

이미지 출처 : http://www.theverge.com/2013/2/22/4013406/i-used-google-glass-its-the-future-with-monthly-updates



‘나는 지금 네가 본 광고를 알고 있다.’

외신들은 19일(현지시간) 구글이 지난주 일명 ‘페이-퍼-게이즈(pay-per-gaze)’라 불리는 눈동자 추적 기술의 특허를 출원했다고 보도했다. 구글이 향후 내놓을 안경 형태의 모바일 기기 ‘구글 글라스’에 달린 작은 카메라가 사용자의 시선과 표정을 분석해 사람들이 어떤 광고를 봤는지, 어떤 광고가 사람들의 시선을 끄는지를 정확하게 측정할 수 있다.

광고주는 TV의 시청률이나 신문의 발행 부수처럼 간접적인 지표가 아닌 사람들이 정확히 광고를 본 횟수만큼 광고료를 낼 수 있게 된다. 표정까지 분석하기 때문에 심지어 ‘광고에 대해 갖는 감정’까지도 광고료 정산에 이용할 수 있다. 정보기술(IT) 전문매체 BGR은 “구글이 사용자들의 감정을 수집해 판매하게 될 것”이라고 전했다.


유사한 방식의 눈동자 추적 기술은 이미 심리학계 등에서 연구를 위해 사용되고 있지만 비싼 장비 가격 때문에 널리 쓰이진 못했다. 안경처럼 간편하게 착용할 수 있는 구글 글라스에 이 기술이 탑재되면 얘기가 달라진다. 수많은 구글 글라스 사용자에게서 모은 정보를 구글이 가공해 판매할 경우 광고업계는 빅데이터 혁명에 직면하게 될 전망이다. 영국 일간 인디펜던트는 “광고회사는 자사의 광고가 얼마나 성과가 있는지 정확하게 평가할 수 있게 될 것”이라며 “다만 개인정보는 지워진 형태로 판매될 것”이라고 덧붙였다.

이 기술은 인터넷 광고에서 클릭한 횟수만큼 광고료를 내는 ‘페이-퍼-클릭’ 시스템을 오프라인으로 확장한 개념이다. ‘페이-퍼-클릭’과 달리 눈으로 보는 모든 광고에 적용할 수 있기 때문에 인터넷 광고뿐만 아니라 신문, 잡지, 전광판 광고에도 적용할 수 있어 활용도가 높다.

박병종 기자 ddak@hankyung.com 

“빅데이터, 잘 시각화해 보여주는 것도 중요해”

빅데이터 관련자료 2013. 8. 29. 10:00

마이크로스트레티지가 새로운 BI 분석 솔루션 ‘마이크로스트레티지9.3.1′을 5월23일 선보였다. 가장 중점을 둔 대목은 ‘빅데이터 시각화’이다.

이혁구 마이크로스트레티지코리아 지사장은 ”최근 몇년 새 빅데이터 시장에 대한 관심은 폭발적인 반면, 데이터 축적과 활용 경험이나 분석 기반 기술이 약한 게 국내 현실”이라며 “마이크로스트레티지9.3.1은 빅데이터 디스커버리, 모바일 지원, 고급분석을 포괄하는 최고의 비즈니스 인텔리전스(BI) 플랫폼으로 기업들이 실제로 빅데이터를 활용해 새로운 시장을 만들고 부가가치를 창출할 수 있도록 지원한다”라고 신제품 출시 소감을 밝혔다.



이번에 출시된 마이크로스트레티지9.3.1은 데이터 분석 결과를 표나 그래프 등으로 보여주는 ‘시각적 데이터 디스커버리’, 엑셀부터 하둡까지 다양한 빅데이터 저장소에서 데이터를 추출해 활용하는 ‘빅데이터 접근성’, SAS와 SPSS 등에서 샘플링을 바탕으로 예측 결과를 제공하는 ‘고급 통계 분석’, 모바일 환경 지원 등이 특징이다. 이전 버전과 비교해 데이터 처리 속도는 5배 빨라졌으며, 처리할 수 있는 데이터 용량은 10개 늘어났다. 여기에 오픈소스 통계 컴퓨팅 언어인 ‘R’ 지원 기능도 추가됐다.

이 중에서 마이크로스트레티지가 하둡이나 R 같은 오픈소스에 적극 대응하고 있는 점에 눈이 간다. 경쟁업체들과 다르게 마이크로스트레지는 하둡 생태계 등 오픈소스를 지원하는 데 힘을 아끼지 않는 모습이다.  오라클과 IBM 같은 경쟁업체들이 자사 DW 환경을 고집하면서 하둡으로부터 데이터를 불러오는 ‘커넥터’ 기능에 주목한 반면, 마이크로스트레티지는 ‘하둡’과 같은 대용량 데이터 저장소를 적극 활용하기에 나섰다. 오픈소스를 활용해 또 다른 상업용 소프트웨어를 만들기보다 현재 존재하는 오픈소스 도구들을 자사 솔루션에 활용하는 전략을 취했다.

빅데이터가 등장하면서 오픈소스 하둡은 대용량 데이터를 다루는 데 표준으로 자리잡았다. 오라클과 IBM 같은 기존 DW 업체는 하둡으로 데이터를 불러오는 ‘커넥터’ 기능에 주목했다. 하둡은 데이터를 저장하는 데 훌륭하지만, 분석해 그 결과를 보여주는 기능이 취약하다. 마이크로스트레티지는 자사 BI 솔루션의 장점을 살려 하둡 생태계의 취약점인 ‘데이터 시각화’ 부분을 공략하고 나섰다. 이를 위해 전통적인 데이터 방식은 관계형DB, 데이터웨어하우스(DW), 컬럼기반 DB뿐만 아니라 액셀이나 하둡, 하이브 같은 저장공간을 지원한다.

이혁구 지사장은 “액셀파일부터 시작해  세일즈포스닷컴 같은 클라우드 소프트웨어(SaaS) 기반 애플리케이션 데이터, 하둡 기반 데이터 소스에 대한 접근이 가능하다”라며 “비즈니스 분석가 또는 비전문 사용자 등 다양한 사용자들이 하둡을 SQL로 바꿔주는 하이브QL 스크립트나 맵리듀스를 개발할 필요 없이 하둡분산파일시스템(HDFS)으로부터 데이터를 추출해 분석하고, 이를 표로 만들기 쉽게 만들 수 있는 방향으로 솔루션을 개발하고 있다”라고 설명했다.

마이크로스트레티지9.3.1는 현재 클라우데라에서 하둡 분석 프로젝트로 진행하고 있는 ‘임팔라’나 IBM의 BigSQL 솔루션 등 최신 하둡 생태계를 지원하고 있다. 일회성 지원에 그치는 게 아니라 6개월마다 버전 업데이트를 통해 최신 오픈소스 프로젝트를 지원할 방침이다. 게다가 이번 버전부터는 오픈소스 R도 지원한다.

고객사에서 직접 R를 가지고 분석 데이터를 만들어 알고리즘을 개발하면, 이를 일반 사용자와 공유할 수 있는 통합 도구 기능을 제공한다. 그 결과 SAS 솔루션이나 SPSS로 사용하는 고급 통계분석 기능을 MSTR에서도 활용할 수 있다.

마이크로스트레티지는 R에서 PMML(Predictive Model Markup Language)과 같은 예측분석을 위한 언어를 사용해 데이터 마이닝 모델을 생성해 온 고객들이 이제 단일 클릭만으로 마이크로스트레티지에서 직접 새로운 R기반 예측분석 모델을 생성한다. 이혁구 지사장은 “빅데이터 시장에서도 오픈소스의 대세를 거스를 수 없다”라며 “국내에서도 많은 학생들이 R을 공부하고 있는 등 오픈소스의 영향이 커질 것으로 보인다”라고 말했다.


출처

http://www.bloter.net/archives/153821


블로터닷넷 엔터프라이즈, 클라우드, 기업용 SW를 담당합니다. 하루가 다르게 변화하는 IT 세상에 조금이라도 더 빨리 적응하기 위해 노력중. 마음과 몸이 자라는 기자가 되겠습니다. izziene@bloter.net, @izziene 
이지영



그루터, 빅데이터 핵심기술 개발…외산에 반격

빅데이터 관련자료 2013. 8. 28. 15:48

빅데이터 플랫폼 전문기업인 그루터가 외산 업체가 주도하는 빅데이터 분석 처리 엔진 개발에 나섰다. 

 

그루터(대표 권영길)는 오픈소스 빅데이터 분석 처리엔진 ‘아파치 타조(Tajo)’ 개발을 본격화한다고 27일 밝혔다. 

 

그루터는 하둡과 하둡 에코시스템 관리 툴인 ‘클라우몬(Cloumon)', 빅데이터 플랫폼인 ‘쿠바(Qoobah)’를 바이오인포메틱스, 보안, 쇼핑, 온라인 콘텐츠 서비스 분야 등에 적용하면서 글로벌 회사와 경쟁할 정도로 빅데이터 플랫폼 회사로서 입지를 쌓아가고 있다. 

 

이와 함께 그루터는 빅데이터에 필요한 핵심 기술을 확보해 국내 시장을 넘어 해외 시장 진출을 위한 핵심 기술로 IA(Interactive Analysis; 이하 IA)를 주목해 왔다. 




▲ 아파치 타조 프로젝트 로고

빅데이터 분석 처리 엔진은 최근 전세계적으로 주목받는 빅데이터 플랫폼의 핵심 기술 중 하나다. 실시간 데이터 처리에 약점을 가졌던 하둡의 한계를 극복하고, 빠르게 의미있는 데이터를 뽑아내는 ‘sql on hadoop’이라 불리는 IA 기술이다. 

 

그동안 이 분야는 미국 클라우데라(Cloudera) 사의 임팔라(Impala), 호튼웍스(Hortonworks) 사의 스팅거(Stinger), 맵알(MapR)의 드릴(Drill), EMC 자회사인 피보탈의 호크(HawQ) 등이 서로 경쟁해 왔다. 

 

그루터가 개발하는 빅데이터 분석 처리 엔진의 명칭은 ‘타조(Tajo: http://tajo.incubator.apache.org/)*’다. 타조는 2013년 3월 세계 최대 오픈소스 재단인 아파치 소프트웨어 재단의 인큐베이터 프로젝트로 채택되며 전세계 빅데이터 관련 개발자들의 관심을 한몸에 받았다. 북미 지역 이외의 첫 IA이면서 아시아에서 등장한 첫 IA라는 점도 눈길을 끈다. 

 

타조는 아파치 재단의 인큐베이션 프로젝트 선정 이전부터 글로벌 IT기업들의 뜨거운 관심을 한몸에 받았다. 미 항공우주국(NASA) 제트추진연구소(JPL), 인텔, 링크드인, 호튼웍스, 플랫포라 등의 개발자가 커미터로 참여 중이다. 

 

타조를 적용하면 기존 하둡 빅데이터 처리엔진 대비 10배 이상 100배까지 빠르게 데이터를 처리할 수 있다. 특히 조만간 타조와 같은 IA 기술과 하둡 생태계 진영에서 나온 기술들을 최적화할 경우 기업들이 사용하는 상용 데이터웨어하우스(DW)를 상당부분 대체할 수 있을 것으로 그루터는 내다보고 있다.

 

그루터는 2012년부터 IA 개발에 대한 준비기간을 거쳐 올 6월부터 본격적인 개발 작업에 착수했다. 아파치 재단의 프로젝트관리위원회(PMC) 멤버이며 타조 최초 발의자인 최현식 박사가 졸업과 동시에 그루터에 합류했다. 또 그루터에서 활동중인 두명의 타조 커미터와 내부 빅데이터 플랫폼 전문가들 뿐 아니라 외부의 전문가들도 활동하는 등 빅데이터 핵심 인력들이 참여중이다. 올해중으로 타조의 성능을 엔터프라이즈급으로 향상시키는 것을 목표로 하고 있다. 

 

권영길 그루터 대표는 “SQL온하둡(sql on hadoop) 기술은 빅데이터 플랫폼의 차세대 핵심기술로 기존 하둡의 응용면에서도 엔터프라이즈급 성능을 제공함으로써 많은 부분 기존 시장의 대체와 함께 신규시장을 빠르게 확대하는데 일조할 것이다”라고 강조했다. 


출처

Copyright ⓒ ZDNetKorea 김우용 기자/ yong2@zdnet.co.kr 

"450억원 규모 빅데이터 사업 뜬다"

빅데이터 관련자료 2013. 8. 28. 15:40


[아이티데일리] 안전행정부가 추진하고 있는 약 450억원 규모의 빅데이터 사업의 실체가 곧 드러날 전망이다.

 

11일 안행부에 따르면 지난 4월 ‘전자정부지원사업 설명회’ 당시 소개한 50억원 규모의 ‘빅데이터 공통기반 및 활용과제 구축’ 사업을 7월 중순 및 하순 사이에 사전공고할 것이라고 밝혔다.

 

안행부에서 발주하는 이번 빅데이터 사업은 행정·공공·민간의 데이터의 융합 및 빅데이터 분석 기반을 마련하는 것이다.

 

각 정부 부처 보유 데이터를 연계·공유, 저장, 분석 기반을 구축하며 SNS 등 민간 비정형 데이터 활용 기반을 구축해 정책의사결정 지원을 위한 기초자료, 과학적인 근거자료의 수집·연계와 저장·분석 기반 제공으로 정책 수립 지원을 강화할 예정이다.

 

이는 ‘국민중심 서비스 정보3.0 구현’의 추진계획의 일환으로 빅데이터를 활용해 사회현안 및 국민의 요구를 파악하고 미래전략 수립 및 선제적 공공서비스 제공 등 정부 혁신을 지원한다는 목적으로 추진된다.

 

특히, 올해부터 2017년까지 총 450억원의 예산이 투입되는 큰 규모의 사업인 만큼 지속사업의 유리한 고지를 밟기 위해 국내외 IT서비스 및 솔루션 업체들의 치열한 경쟁이 예고되고 있다.

 

다만 당초 50억원 규모의 빅데이터 사업이 40억원 미만의 사업으로 축소돼 대기업참여하한제에 의해 중견기업들은 참여할 수 없게 돼 중소기업들의 각축장이 될 예정이다.

 

또한 ▲빅데이터 크롤링 ▲검색 ▲분석 솔루션 ▲DBMS 등은 SW분리발주될 예정이서 통합발주에 속한 ▲웹서버 및 웹애플리케이션 ▲대용량 데이터 처리 DBMS ▲보안/백업/OS ▲민간데이터 수집·분석 서버 ▲DBMS 서버 등의 규모는 상대적으로 작아질 예정이다.
 

공공기관, 빅데이터 사업 발주 봇물

 

안행부가 발주할 빅데이터 사업이 약 40억원 규모로 가장 큰 사업이지만 이 외에도 정부 부처 및 관련 기관들이 연일 빅데이터 관련 사업을 발주하고 있다.

 

빅데이터 사업 및 빅데이터 분석과 활용이 포함된 사업 등 약 20여건의 사업이 나라장터를 통해 발주됐다.

 

이들 사업 규모는 약 100억원 수준으로 한국정보화진흥원(NIA)에서 발주한 ‘빅데이터 활용 스마트서비스 시범 사업 공모’가 약 14억원으로 안행부에 이어서 두 번째로 크다. 이어 약 10억원 규모의 ‘빅데이터를 활용한 고속도로 교통자료 분석 및 제공체계 구축 용역’을 한국도로공사가 발주했으며, 대한지적공사가 약 8억원 규모로 ‘공간 빅데이터 체계구축 ISP 수립’ 사업을 발주했다.




<ITDaily>

고수연 기자  going@itdaily.kr