반응형

빅데이터?? 궁금해서 찾아봤습니다. ㅋㅋ

반응형
728x170

방문해주셔서 고맙습니다. 


코코네 블로그입니다. 


이번 포스팅에서는 빅데이터 에 대해서 포스팅해보려고 합니다. 


주변에서 하도 빅데이터(BIGDATA), 빅데이터(BIG DATA)란 말씀들을 하시고 심지어 TV CF에서조차 빅데이터라는 말이 나오길래 도대체 머길래 여기저기서 언급을 해댈까 하고 찾아보았습니다. 



빅데이터의 정의와 등장 배경


이미지 출처 - 구글

빅데이터란


디지털 환경에서 통상적으로 생성되는 데이터로 규모가 방대하고, 생성 주기도 짧고, 형태도 수치 데이터뿐 아니라 문자, 영상 데이터를 포함하는 현재로는 수십 테라에서 앞으로 페타, 엑사 바이트 정도 크기의 대용량 데이터를 의미합니다. 그 크기도 끊임없이 변화하는 것이 특징입니다. 


빅데이터는 각종 센서들의 등장, 인터넷의 발달, 소셜미디어의 상호작용, 스마트폰 등 인터넷 연결기기의 폭발적인 증가, 멀티미디어 콘텐츠의 활용증대 등 디지털 환경에서 생성되는 일종의 흔적이라고 할 수 있습니다. 일상생활에서 과자를 사먹는다고 가정하였을 때 쓰레기가 남는 것은 당연한 일입니다. 이를 우리가 살고 있는 데이터 환경과 비교해보면 인터넷 물건을 살때도, 구매를 하지 않더라도 방문자가 돌아다닌 기록이 자동적으로 데이터로 저장이 됩니다. 은행 업무, 증권, 금융 거래, 우리가 거의 매일 접하는 자료검색, 이메일 등... 사람과 기계, 기계와 기계가 서로 주고받는 교류를 통해 디지털 정보가 폭발적으로 늘어나면서 흔적이 남게되는 것입니다. 






빅데이터의 특징과 의미



데이터는 초대용량의 데이터의 양(volume), 빠른 데이터 입출력의 속도(velocity), 다양한 데이터 종류의 형태(variety)라는 뜻에서 3V라고도 불리며, 이 “3V” 모델은 이후 가장 널리 사용되는 빅 데이터의 정의가 되었으며, 이에 더해 IBM은 진실성(Veracity)이라는 요소를 더해 4V를 정의하였고,브라이언 홉킨스(Brian Hopkins) 등은 가변성(Variability)을 추가하여 4V를 정의하였습니다. 혹은 가치(value)를 더해 4V라고 정의하기도 합니다. 

여기서 가치(value)가 중요특징으로 등장한 것은 빅데이터 자체가 비정형적인 텍스트와 이미지 등으로 이루어져있고, 시간이 지나면서 빠르게 전파되고 변함에 따라 전체를 파악하기 힘들고 패턴을 발견하기가 어렵기 때문에 가치(value) 창출이 중요성으로 강조되었다고 합니다. 거기에 더해 복잡성(Complexity)을 덧붙이기도 합니다. 


이런 다양하고 방대한 규모의 빅데이터는 다가오는 미래에 경쟁력을 갖출 수 있는 중요한 자원으로 활용될 수 있다는 점에서 주목을 받고 있습니다. 대규모의 데이터를 분석하여 의미있는 정보를 찾아내어 질병이나 사회현상의 변화에 관한 새로운 법칙과 패러다임을 발견할 수 있고, 이에 인간의 행동을 미리 예측할 수 있는 세상이 열리고  있다고 주장하는 학자들도 있습니다. 


기업의 경우 보유하고 있는 고객 데이터를 활용해 마케팅 활동을 활성화하여 고객관리를 할 수 있고, 위에서 언급한 구매 이력 정보와 웹로그(web-log) 분석, 위치기반 서비스(GPS) 결합을 통해 소비자가 원하는 서비스를 적절히 제안할 수 있는 기술 기반도 갖추게 되었습니다. 

특히 블로그나 SNS(Social Network Service)에서 유통되는 텍스트 정보는 내용을 통해 글을 쓴 사람의 성향뿐 아니라, 소통하는 상대방의 연결 관계까지도 분석이 가능하기 때문에 트위터, 페이스북, 인터넷에 생성되는 기업관련 검색어와 댓글등을 분석하여 자사의 제품과 서비스에 대한 고객의 반응에 실시간으로 즉각 대처가 가능해졌습니다. 





빅데이터 분석 기법




크게 분석 기술, 표현 기술로 나눌 수 있습니다. 


분석 기술


대부분의 빅 데이터 분석 기술과 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 해당되며 특히 최근 소셜 미디어등 비정형 데이터의 증가로 인해 분석기법들 중에서 텍스트 마이닝, 오피니언 마이닝, 소셜네트워크 분석, 군집분석 등이 주목 받고 있습니다. 

텍스트 마이닝: 비/반정형 텍스트 데이터에서 자연 언어 처리 기술에 기반하여 유용한 정보를 추출, 가공

오피니언 마이닝: 소셜미디어 등의 정형/비정형 텍스트의 긍정, 부정, 중립의 선호도를 판별

소셜 네트워크 분석: 소셜 네트워크의 연결 구조 및 강도 등을 바탕으로 사용자의 명성 및 영향력을 측정

군집 분석: 비슷한 특성을 가진 개체를 합쳐가면서 최종적으로 유사 특성의 군집을 발굴


대규모의 정형/비정형 데이터를 처리하는 데 있어 가장 기본적인 분석 인프라로 하둡이 있으며 데이터를 유연하고 더욱 빠르게 처리하기 위해 NoSQL 기술이 활용되기도 합니다.


표현 기술


빅 데이터 분석 기술을 통해 분석된 데이터의 의미와 가치를 시각적으로 표현하기 위한 기술로 대표적인 것으로는 R (프로그래밍 언어)이 있습니다. 






빅데이터 활용




이미지 출처 - 조인스닷컴


기업의 활용



구글


빅데이터 활용 사례의 선두 주자는 역시 구글입니다. 데이터 양이 쌓이고 쌓일수록 정보의 품질과 정확성이 좋아진다는 것을 실제 인터넷 검색을 통해 보여주고 있습니다. 

구글에서 제공하는 자동 번역 서비스인 구글 번역은 빅 데이터를 활용합니다. 지난 40년 간 컴퓨터 회사 IBM의 자동 번역 프로그램 개발은 컴퓨터가 명사, 형용사, 동사 등 단어와 어문의 문법적 구조를 인식하여 번역하는 방식으로 이뤄졌는데 이와 달리 2006년 구글은 수억 건의 문장과 번역문을 데이터베이스화하여 번역시 유사한 문장과 어구를 기존에 축적된 데이터를 바탕으로 추론해 나가는 통계적 기법을 개발한 것입니다. 캐나다 의회의 수백만 건의 문서를 활용하여 영어-불어 자동번역 시스템개발을 시도한 IBM의 자동 번역 프로그램은 실패한 반면 구글은 수억 건의 자료를 활용하여 전 세계 58개 언어 간의 자동번역 프로그램 개발에 성공하였습니다. 이러한 사례로 미루어 볼 때, 데이터 양의 측면에서의 엄청난 차이가 두 기업의 자동 번역 프로그램의 번역의 질과 정확도를 결정했으며, 나아가 프로젝트의 성패를 좌우했다고 볼 수 있습니다.



아마존


온라인 쇼핑몰의 선구자 아마존(Amazon)도 빅데이터 활용의 역사가 깊습니다. 지난 7월 26일 월스트리트저널에서 아마존을 비롯한 구글과 애플, 페이스북 등이 올해 나스닥 지수 증가분의 절반 이상을 차지했다고 보도한바 있습니다. 

이는 아마존의 고객 우선지향 경영과 고객에게 신뢰받는 서비스를 통해 일구어낸 성과입니다. 

아마존은 고객의 도서 구매 데이터를 분석해 특정 책을 구입한 사람이 추가로 구매할 것으로 예상되는 도서 추천 시스템을 개발했습니다. 이를 통해 고객이 읽을 것으로 예상되는 도서를 추천하면서 할인쿠폰을 지급합니다. 전형적인 데이터 분석을 통한 마케팅 방법으로  고객 한사람 한사람의 취미나 독서 경향을 찾아 그와 일치한다고 생각되는 상품을 메일, 홈 페이지상에서 중점적으로 고객 개인에게 자동적으로 제시하는 것입니다.



넷플릭스(Netflix)



미국 최대 비디오스트리밍 업체인 넷플릭스(Netflix)는 최근 급성장을 하여 지난 2분기 성과만 매출 16억 4,000만 달러(약 1조 9,579억 원)을 기록했습니다. 이런 넷플릭스(Netflix)는 이용자의 영화 대여 목록에 기초하여 새로운 영화를 추천해주는 시네매치(Cinematch) 시스템을 개발하여 빅데이터 경영을 통해  유럽과 북미에서만 약 6,500만 명의 가입자를 보유하고 있으며 2016년까지 전 세계에 서비스를 계획하고 있다고 합니다.



페이스북


지난 7월 26일 월스트리트저널이 발표한 내용에서 올해 나스닥 지수의 시가 총액이 6,640억 달러 증가했다고 보도를 했는데 그중에서 페이스북이 540억 달러를 기록하였습니다. 위에서 언급한 아마존, 구글, 애플, 넷플릭스, 페이스북, 길리어드 등 여섯 개 기업이 증가분의 절반 이상을 차지했을 정도입니다. 

페이스북 역시 이용자의 검색 조건, 나아가 사진과 동영상 같은 비정형 데이터 사용을 즉각 처리하여 이용자에게 맞춤형 광고를 제공하는 등 빅 데이터의 활용을 증대시키고 있습니다. 




민간/공공 부문의 활용



대한민국 제19대 총선


중앙선거관리위원회는 대한민국 제19대 총선부터 소셜 네트워크 등 인터넷 상의 선거 운동을 상시 허용하였는데 이에 소셜 미디어 상에서 선거 관련 데이터는 증폭되었으며, 2010년 대한민국 제5회 지방 선거 및 2011년 대한민국 재보궐선거에서 소셜 네트워크 서비스의 중요성을 확인한 정당들 또한 SNS 역량 지수를 공천 심사에 반영하는 등 소셜 네트워크 활용에 주목했습니다. 이 가운데 여론 조사 기관들은 기존 여론조사 방식으로 예측한 2010년 제5회 지방 선거 및 2011년 재보궐선거의 여론조사 결과와 실제 투표 결과와의 큰 차이를 보완하고자 빅 데이터 기술을 활용한 SNS 여론 분석을 시행했으나 SNS 이용자의 대다수가 수도권 20~30대에 쏠려 있기에 빅 데이터를 이용한 대한민국 제19대 총선에 대한 SNS 분석은 수도권으로 한정되어 일치하는 한계를 드러내기도 하였습니다.



기상정보


한반도 전역의 기상관측정보를 활용해 일기예보와 각종 기상특보 등 국가 기상서비스를 제공하고 있는 기상청은 정밀한 기상예측을 위한 분석 과정에서 발생하는 데이터 폭증에 대응하고자 빅데이터 저장시스템의 도입을 추진하였습니다. 


대다수 스토리지 기업들의 솔루션을 검토한 끝에 한국 IBM의 고성능 대용량 파일공유시스템(General Parallel File System, 이하 GPFS)을 적용한 스토리지 시스템을 선택하였다고 밝혔습니다.


한국IBM이 기상청에 제공한 GPFS 기반의 빅데이터 저장시스템은 IBM 시스템 스토리지 제품군, 시스템 x서버 제품군과 고속 네트워킹 랙스위치(RackSwitch) 등이 통합돼 있는 시스템이라고 합니다.



보안관리


보안관리는 빅데이터 환경을 이용해 성장과 기술 발전을 동시에 이루는 분야로 분리합니다. 클라우드 및 모바일 환경으로 접어들면서 물리/가상화 IT 시스템의 복잡성이 더욱 높아지고 있어 유무선 네트워크, 프라이빗/퍼블릭 클라우드, 모바일 애플리케이션과 기기관리 등 IT 시스템 전반에서 대대적인 변화가 예상되고 있어 막대한 양의 보안관리가 중요한 요소로 현실화되고 있습니다.



의료


빅 데이터를 활용하면 미국 의료부문은 연간 3,300 억 달러(미 정부 의료 예산의 약 8%에 해당하는 규모)의 직간접적인 비용 절감 효과를 보일 것으로 전망된다고 합니다. 특히 임상분야에서는 의료기관 별 진료방법, 효능, 비용 데이터를 분석하여 보다 효과적인 진료방법을 파악하고 환자 데이터를 온라인 플랫폼화하여 의료협회 간 데이터 공유로 치료 효과를 제고하며 공중보건 영역에선 전국의 의료 데이터를 연계하여 전염병 발생과 같은 긴박한 순간에 빠른 의사결정을 가능케 할 전망입니다.


한편, 의료 분야에서 빅 데이터가 효과를 발휘하기 위해서는 대량의 의료정보 수집이 필수적이기 때문에, 개인정보의 보호와 빅 데이터 활용이라는 두 가지 가치가 상충하게 됩니다. 따라서, 의료 분야에서 빅 데이터의 활용과 보급을 위해서는 이러한 문제에 대한 가이드라인 마련이 필요한 상태라고 합니다.






비판



빅 데이터 오용


2012년 미국 대통령 선거에서 오바마 캠프 CTO였던 하퍼 리드(Harper Reed)는 빅 데이터란 단어가 엉뚱하게 남용되고 있으며, 그로 인해 빅 데이터란 말을 쓰기에 적합한 양이나 성격도 가지지 않은 데이터를 가진 사람들이 투자를 꺼리는 등 많은 오해가 생기고 있다고 비판했습니다. 실제로 국내외 IT 업계에선 CRM, 소셜분석, 통계분석, 검색기술 등이 빅 데이터란 단어로 포장되어 혼란을 주고 있습니다.




빅데이터와 빅브라더 시대



이미지 출처 - 구글


최근 빅데이터 분석 기법이 국가와 기업의 마케팅, 여론조사 등에 이용되면서 빅데이터가 빅브라더 시대를 여는 것이 아닌가에 대한 비판이 끊임 없이 제기되고 있습니다. 즉 빅데이터의 형태로 개인의 사생활, 정보, 성향 등이 노출되고 이것을 분석하고 통제함으로서, 빅데이터 분석능력이 곧 권력을 독점하는 '빅브라더 시대'로 진입한다는 것을 의미합니다. 일례로 미국은 빅데이터 분석을 이용해 사회를 감시해왔으며, 2013년 6월 6일 '국가안보국(NSA) 정보수집 파문'으로 그 진상이 드러난 바 있습니다. 전 국가안보국 계약직원인 에드워드 스노든은 지난해 6월 워싱턴포스트와 영국가디언 誌를 통해 미 정부가 프리즘(PRISM)을 통해 빅데이터를 분석, 전 세계를 감시해 왔다고 주장, 폭로하였습니다. 




범죄와 테러에 맞서기 위해 각국 정부는 디지털 발자국을 수집하고 분석하는 분야에 지속적으로 투자 규모를 늘리고 있습니다. 정부는 물론 기업이 추진하고 있는 개인정보 분석에 기초한 다양한 서비스 제공은 소비자의 편익을 증대시키는 기회인 동시에 프라이버시 침해라는 개인정보 보호 이슈를 제기하고 있습니다.






빅데이터 환경에서 대책 방안


● 보건 정보, 교통정보와 같은 데이터들은 개인정보이면서, 동시에 사회적으로 유용한 정보이기 때문에 데이터 활용 측면과 프라이버시 침해와의 균형과 사회적 합의 도출 필요


빅데이터는 개인정보뿐만아니라 국가기밀까지 포함이 되기 때문에 사이버 테러로 인한 중요 정보 유출에 대비한 기술 및 정책적 지원이 필요


● 데이터의 복제 및 공유로 인한 소유권 및 사용권 등 문제가 발생하기때문에 개인적으로는 얌심적이고 도덕적인 의식수준을 가지도록 노력하고 사회적으로는 문제 발생을 해결하기 위한 가이드라인을 마련


● 부정확한 데이터 분석 결과를 산출시 이에 따른 '책임소재' 등의 문제가 발생하는데 이에 대한 해결 대책을 강구





참조


■ 네이버(Naver)

■ 구글(google)

■ 기타 전자책들




부족한 글 끝까지 읽어주셔서 감사합니다. 

빅데이터 시대에 살면서 여지껏 빅데이터란 뜻도 제대로 모르고 살아왔네요.ㅋ 

매번 인터넷 접속하고 온라인 구매하고, 여지저기 다니면서 교통정보 흔적 흘리고... 

흔적이라는 흔적은 다 남기고 살고 있는데 저도 빅데이터 축적에 한몫 기여하고 있네요. 어째 조금 무섭고 찝찝한 기분이 드는건 저만 그런걸까요?  

반응형
그리드형

이 글을 공유하기

댓글(2)