다잇소


[IT/트랜드] [빅데이터 Ep.4] 하둡관리도구 Big3 중 하나인 Hortonworks

2017.08.01
이번에는 호톤웍스에 대해서 알아보도록 하겠습니다.

 

s1

 

 

  1. 도구들


호톤웍스를 구성하고 있는 녀석들입니다.

역시나 데이터를 관리하는 HDFS가 가장 하단에 존재 하고 yarn이 Job을 트래킹을 하며 관리를 해줍니다.

 

배치는 MR을 이용해서 돌리는데 보통은 Hive나 Hbase등올 배치를 실행합니다.

Hive를 사용해 배치를 만들고 실행을 하지만 결국 Hive도 MR을 이용해서 구동이 됩니다.

배치 실행이 주의할 점은 RDB가 아닌 하듑에서 돌리는 것이니 만큼 기존의 사상을 버리고 MR에 맞게 작성하는것이 좋다고 생각합니다.

 

No SQL기반으로는 HBase, Phoenix 등이 있는데 사실 저도 HBase만 사용해 봤습니다.

 

스톰은 실시간으로 스트리밍 데이터를 처리한다는 개념인데요

스톰을 이해하기 위해서는 Data Streaming에 대한 이해가 약간 필요합니다.

 

트위터나 페이스북 같이 시간의 순서에 따라 끊임 없이 생성되는 데이터를 의미 합니다.

이를 통해서 무엇을 할 수 있는지가 가장 궁금하시겠죠?

 

예를 들자면 한 트위터가 요즘 핫한 카카오뱅크에 관한 트윗을 게시 합니다.

그리고 누군가가 케이뱅크에 대한 트윗을 하면

 

스톰을 통해서 각 회사의 피드들을 걸러내고 다시 그 재품의 긍정 적인면과 부정적이 면을 걸려 내준다겁니다.

 

example-apache-storm-topology-diagram

 

(참조 : https://docs.microsoft.com/ko-kr/azure/hdinsight/hdinsight-storm-overview)

 

이 그림 한장이면 이해가 가실까요?

전체 문장을 split을 한뒤에 그걸 다시 단어 단위로 짤라내고 평점을 매깁니다.

(물론 이때 데이터 딕셔너리가 필요하겠죠? 긍정적인 면과 부정적인 면에서.. 늘 그렇듯 하나만 가지고는 해결 할 수 없습니다.)

 

스톰을 이용해서 이상거래탐지나 실시간 SNS분석에 적용하는 사례들도 늘어나고 있습니다.

 

다음은 검색엔진인 Sold 입니다.

 

지난번 빅데이터 프로젝트에서도 Solr를 이용해서 웹로그를 분석을 했는데요

솔라 같은 경우에는 지난 번에 언급했었던 루씬 기반의 검색엔진 입니다.

 

솔라는 속도는 굉장히 빠릅니다

또한 텍스트 기반, 문서기반 (!!!!) , 웹페이지 기반 심지어는 이메일도  검색이 가능 합니다.

단순 검색이 아닌 문서 기반으로도 가능하다는게 장점이라고 생각합니다.

 

다만 이러한 처리를 위해서는 미리 인덱싱 작업을 해야한다는 점입니다.

 

마지막으로 인메모리DB에는 스팍이 있습니다.

스팍은 범용적 목적의 분산 고성능 클러스터링 플랫폼 (General purpose high performance distributed platform) 으로 정의 내릴수 있는데…

 

말이 좀 어렵죠?

근데 저 문장이 가장 스팍을 잘 표현한다고 할 수 있습니다.

 

즉, 스팍은 분산된 여러개의 노드에서 연산을 해주는 고 가용성 클러스터링 제품으로 스팍 위에 Storm이나 MR을 돌릴수 있게 되는 거라고 생각하시면 됩니다.

 

2. 거버넌스 통합

데이터 라이프사이클은 팔콘이나 아틀라스가

데이터 워크플로 즉 데이터를 가져오거나 던지는 창구 역활은

 

스쿱이나 , 플럼, 카프카 등이 그 역활을 하고 있구요

 

기존의 테라 스트림등과의 차이점은 역시나… 무료라는 점입니다.

물론 호톤웍스나 클라우데라는 기업용 제품을 따로 팔면서 비용이 발생하지만…

기존의 여러 시스템을 사용하던 비용을 줄일 수 있다는 것이 장점입니다.

 

 

하듑 시장이 커지고 기업용 제품이 늘어감에 따라 호톤웍스쪽에서 신경쓰고 있는 건 역시나

 

보안과 운영입니다.

(그리고 시각화 툴….이죠)

 

사실 운영은 기존에 있던 암바리나 주키퍼로 하면 되는거고

스케쥴링의 경우 우지로 하면 되니까… (은행으로 치자면 JAS 에 해당하는 제품입니다)

 

저 S/W들이 어느정도 수행은 가능하나 역시나 보안은 그들에게도 가장 큰 이슈로 대두 되고 있습니다.

 

 

마지막으로 실시간 스트리밍 데이터를 어떻게 처리 하는지에 대한 동영상으로 마무리를 하겠습니다.

 



 

 
설정된 프로필 사진이 없습니다.
| Wise리더
관심분야

카테고리 레이어 닫기