2016/02 썸네일형 리스트형 Elasticsearch hadoop Elasticsearch hadoop 소개 Elasticsearch에서는 강력한 Aggregation을 지원하지만 Aggregation에서 지원하지 않는 대용량 처리에 있어서는 불편한점이 있다. 예를 들어 event를 분석한다고 했을 때, 데이터를 간단하게 json으로 index한 후에 각 event의 count (term aggergation), event의 시간단위의 count (date histogram) 등을 kibana를 통해 간단하게 볼 수 있다. 하지만 event간의 상관 관계를 분석한다거나, data가 많아져서 data를 aggregation한다던가 할 때에는 어떻게 해야할까??다시말해, HDFS에서 읽어들여서 spark에서 machine learning을 돌리거나 event flow를 연.. 더보기 Hadoop CDH5 HDFS_UNDER_REPLICATED_BLOCKS CDH로 hadoop cluster 구성 후 HDFS_UNDER_REPLICATED_BLOCKS라는 메시지가 hdfs cluster에 떠있어서 확인해보니, 기본적으로 dfs.replication이 3인데 장비 2대에 깔았으므로 복제가 2개만 존재하는 파일들이 존재했다. 확인 $ hdfs fsck 결과 /user/hadoop/data/1987.csv: Under replicated blk_4089892973365100866_1613. Target Replicas is 3 but found 2 replica(s). /user/hadoop/data/1987.csv: Under replicated blk_-8012340995855654662_1613. Target Replicas is 3 but found 2 .. 더보기 이전 1 다음