<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="http://valley.egloos.com/rss/style/style.xsl" type="text/xsl" media="screen"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
	<channel>
		<title>이글루스 'hadoop' 태그 최근글</title>
		<link>http://valley.egloos.com/tag/hadoop</link>
		<description>hadoop</description>
		<language>ko</language>
		<pubDate>Tue, 15 May 2012 20:09:42 +0900</pubDate>
		<generator>Egloos</generator>
		<item>
	<title><![CDATA[하둡의 내부 I/O 동작 분석 글]]></title>
	<link>http://Agbird.egloos.com/5637955</link>
	<guid>http://Agbird.egloos.com/5637955</guid>
	<description>
	<![CDATA[ 
  VMWare 라는 회사의 누군가가 하둡의 I/O 동작 방식에 대해 분석한 글한 줄로 요약하자면 하둡의 MapReduce 에서는 중간에 I/O가 참 많이 발생한다... 정도가 되겠다.  글의 마지막에 보면 몇 가지 질문을 던지고 있다.   우선 하둡은 map task 실행 시 가급적 해당 task가 처리할 데이터가 있는 노드에서 실행되도록 job tracker가 task를 할당하고 있는데 글쓴이가 실제 실험을 해보니 원격 노드에서 실행을 하더라도 그에 따른 부하가 전체 I/O에서 그리 크지 않은 것 같다고 했다. 이건 테스트를 위해 사용한 예제가 데이터 정렬이었기 때문에 그렇다. 데이터 정렬은 그 특성상 Map 에서 처리하는 데이터와 Reducer로 넘어가는 데이터 양이 동일한데, 원래 MapReduce 	]]>
	</description>
	<pubDate>Tue, 15 May 2012 20:09:42 +0900</pubDate>
	<dc:creator><![CDATA[gimmesilver's  blog]]></dc:creator>
</item>
<item>
	<title><![CDATA[하둡 설치]]></title>
	<link>http://fantasm.egloos.com/2865685</link>
	<guid>http://fantasm.egloos.com/2865685</guid>
	<description>
	<![CDATA[ 
  매우 간단히 설명해주셨다. 나와 같은 뉴비들에게 큰 도움이 될 거라 생각된다.  광이랑 님 : http://crazia.tistory.com/742  지윤서윤 님 :  http://blog.naver.com/PostView.nhn?blogId=skkong89&amp;amp;logNo=90135043486	]]>
	</description>
	<pubDate>Mon, 14 May 2012 13:40:09 +0900</pubDate>
	<dc:creator><![CDATA[幻想鄕.flamboyance]]></dc:creator>
</item>
<item>
	<title><![CDATA[Hadoop : The Definitive Guide, Chapter 2]]></title>
	<link>http://fantasm.egloos.com/2865684</link>
	<guid>http://fantasm.egloos.com/2865684</guid>
	<description>
	<![CDATA[ 
1. 책의 Github에 있는 배시 코드를 받아온다.  -1  전 처리     - 이 배시를 이용해 테스트하기 전, 날씨 데이터들을 전처리해야한다. 날씨 데이터는 1901년부터 현재까지의 기상정보들이 모여있는데, 각 파일은 하나의 기상정보수집기에서 추출된 자료로 해가 지날 수록 그 숫자가 기하급수적으로 늘어난다. 1901~2001까지 데이터는 56만여개이다. 책에서 나와 있듯이 년도 별로 데이터를 묶어두어야하는데, 내 나름대로의 방법으로 전처리를 수행하였다. 각 파일을 'cat' 명령으로 이어 붙이고 년도 이름으로 저장하는 것인데, Github의 그 배시 코드를 조금 수정하여 전처리용으로 만들었다. 소스는 아래와 같다. 이때 데이터는 gz로 압축되어있는 것을 전부 풀어놓고 년도별 폴더에 넣어두었다고 가정한다	]]>
	</description>
	<pubDate>Mon, 14 May 2012 13:37:35 +0900</pubDate>
	<dc:creator><![CDATA[幻想鄕.flamboyance]]></dc:creator>
</item>
<item>
	<title><![CDATA[Hadoop NCDC Weather Dataset]]></title>
	<link>http://fantasm.egloos.com/2865251</link>
	<guid>http://fantasm.egloos.com/2865251</guid>
	<description>
	<![CDATA[ 
  하둡북(http://www.hadoopbook.com)에는 날씨 데이터가 두 개 밖에 없다. 모든 데이터를 찾아보니 아마존 ec2를 경유해서 받으란다. 허나 돈이 없는 중생은 원본 데이터가 있는 곳을 찾아 해매다가 결국 찾아서 받았다 ㅠㅠㅠ.  NCDC(http://www.ncdc.noaa.gov/)에서 Most Popular에서 3505 FTP data access 에 가면, 1901년부터 2012년까지의 데이터가 있다. FTP 프로그램을 이용해서 전부 내려받으면 된다.	]]>
	</description>
	<pubDate>Sat, 12 May 2012 19:52:14 +0900</pubDate>
	<dc:creator><![CDATA[幻想鄕.flamboyance]]></dc:creator>
</item>
<item>
	<title><![CDATA[[Hadoop] hadoop 1.0.0 이상 버전에서 ClassNotFoundException]]></title>
	<link>http://entireboy.egloos.com/4702794</link>
	<guid>http://entireboy.egloos.com/4702794</guid>
	<description>
	<![CDATA[ 
hadoop의 하위 호환성 그지 같은건 예전 버전부터 알고 있었지만, 1.0.0 버전이 되니 이건 완전히.. 아오~ ㅆ.. -ㅅ-;;;    hadoop에서 외부 라이브러리 같은걸 사용하기 위해서는 $HADOOP_CLASSPATH에 classpath를 잡아주거나, 아래 경로에 jar 파일을 넣어주면 됐었다. (정말 1.0.0 이전 버전은 됐었다. TㅅT)    ${HADOOP_HOME}/lib      이런 ㅆㅂㄹㅁ 하둡.. 이젠 저 경로에 넣어도 안 된다. $HADOOP_CLASSPATH로 잡아줘도 안 된다. 어떻게 해도 ClassNotFoundException이 발생한다.  이상한건 프로젝트의 maven dependency를 모두 한 경로에 넣고 $HADOOP_CLASSPATH로 잡아주면 일부는 로딩 되	]]>
	</description>
	<pubDate>Thu, 10 May 2012 20:43:58 +0900</pubDate>
	<dc:creator><![CDATA[Sigel's house made of ice 。。。]]></dc:creator>
</item>
<item>
	<title><![CDATA[[Hadoop] 하둡 비정상 종료시 safe mode 종료]]></title>
	<link>http://entireboy.egloos.com/4696220</link>
	<guid>http://entireboy.egloos.com/4696220</guid>
	<description>
	<![CDATA[ 
하둡이 정상적으로 종료되지 않아서 막 다뤘더니 다시 뜨질 않는다.  웃긴건 일부 datanode 같은건 정상적인데 job을 실행시키려니 안된다. TㅅT 다른건 잘 되고 job 실행이 안되니 job tracker가 이상한 것 같아서 job tracker 로그를 보니 이런..    2012-04-19 16:03:56,646 INFO org.apache.hadoop.mapred.JobTracker: JobTracker up at: 9001  2012-04-19 16:03:56,646 INFO org.apache.hadoop.mapred.JobTracker: JobTracker webserver: 50030  2012-04-19 16:03:56,767 INFO org.apache.hadoop.mapred.JobTr	]]>
	</description>
	<pubDate>Thu, 19 Apr 2012 16:29:49 +0900</pubDate>
	<dc:creator><![CDATA[Sigel's house made of ice 。。。]]></dc:creator>
</item>
<item>
	<title><![CDATA[MongoDB Hadoop Connector (from 10gen)]]></title>
	<link>http://monetary.egloos.com/3828993</link>
	<guid>http://monetary.egloos.com/3828993</guid>
	<description>
	<![CDATA[ 
MongoDB를 만든 10gen에서 Hadoop Connector를 발표했습니다.  MongoDB Hadoop Connector는 데이터 프로세싱을 위해 MongoDB와 Hadoop Cluster를 견고한 통합 계층을 제공합니다. Connector는 현재 0.20.x 이후의 Hadoop Major 버전을 지원합니다. Connector의 핵심 기능은 MongoDB의 데이터를 읽어들여서 Hadoop MapReduce Job을 실행하고, 그 결과를 다시 MongoDB에 쓰는 것입니다.  물론, 사용자는 사용 목적에 따라 MongoDB가 Read/Write를 모두 하거나 따로하도록 선택할 수도 있습니다.   이제 MongoDB 사용자도 Hadoop 생태계가 주는 많은 이점을 누릴 수 있게 되었습니다.  [부가 지원	]]>
	</description>
	<pubDate>Fri, 13 Apr 2012 16:59:16 +0900</pubDate>
	<dc:creator><![CDATA[묵호칼치]]></dc:creator>
</item>
<item>
	<title><![CDATA[[Spring, Hadoop] spring-data-hadoop jdo2-api dependency 문제]]></title>
	<link>http://entireboy.egloos.com/4693284</link>
	<guid>http://entireboy.egloos.com/4693284</guid>
	<description>
	<![CDATA[ 
Spring hadoop을 쓰기 위해 maven dependency를 추가했다. 헌데.. 안된다.    &amp;lt;dependency&amp;gt;      &amp;lt;groupId&amp;gt;org.springframework.data&amp;lt;/groupId&amp;gt;      &amp;lt;artifactId&amp;gt;spring-data-hadoop&amp;lt;/artifactId&amp;gt;      &amp;lt;version&amp;gt;1.0.0.M1&amp;lt;/version&amp;gt;  &amp;lt;/dependency&amp;gt;      $ mvn compile  [INFO] Scanning for projects...  [INFO]                                                                           [	]]>
	</description>
	<pubDate>Tue, 10 Apr 2012 10:28:47 +0900</pubDate>
	<dc:creator><![CDATA[Sigel's house made of ice 。。。]]></dc:creator>
</item>
<item>
	<title><![CDATA[Cascading ]]></title>
	<link>http://hyunjoo.egloos.com/402833</link>
	<guid>http://hyunjoo.egloos.com/402833</guid>
	<description>
	<![CDATA[ 
- Cascading 이란 ?   분산데이터 그리드 혹은 클러스터 환경에서 대용량 데이터 처리작업을 정의, 공유, 실행 할때 사용되는 Query API 및 Query Planner 이다.    Cascading은 Apache Hadoop에 의존하기 때문에 Cascading의 개발 및 테스트를 위해서는 Hadoop이 로컬에 설치되어 있어야한다. Cascading은 복잡한 하둡 응용프로그램 개발과 job 생성 그리고 job 스케쥴링을 단순화한다.  쉽게 말하면 대용량 데이터에서 간단한 연산을 한다거나 원하는 필드를 생성하고 조인하고 원하는 데이터값을 찾을 때 사용함!!    - 데이터 처리     Cascading Processing Model 은 &quot;pipes 와 filters&quot; 상징(?)을 기반으로 되어있다.	]]>
	</description>
	<pubDate>Sun, 15 Jan 2012 21:17:08 +0900</pubDate>
	<dc:creator><![CDATA[qulli]]></dc:creator>
</item>
<item>
	<title><![CDATA[Amazon ec2에 whirr를 이용한 Hadoop 및 HBase 설치 방법]]></title>
	<link>http://penta82.egloos.com/5588390</link>
	<guid>http://penta82.egloos.com/5588390</guid>
	<description>
	<![CDATA[ 
Apache whirrhttp://whirr.apache.org/  기본 설치 3가지javamavenruby    (1) Java 설치 http://blog.outsider.ne.kr/634  (2) maven 설치sudo apt-get install maven2  (3) ruby 설치sudo apt-get install ruby1.9.1  	]]>
	</description>
	<pubDate>Wed, 28 Dec 2011 16:22:15 +0900</pubDate>
	<dc:creator><![CDATA[Teach Myself]]></dc:creator>
</item>
<item>
	<title><![CDATA[RHadoop - Integrating hadoop and R]]></title>
	<link>http://monetary.egloos.com/3730163</link>
	<guid>http://monetary.egloos.com/3730163</guid>
	<description>
	<![CDATA[ 
RHadoop는 3개의 R패키지로 구성되어 있습니다. 이 패키지를 통해 R사용자는 Hadoop으로 데이터를 관리하거나 분석할 수 있습니다. 현재 패키지들은 CDH3(Cloudera's distribution of Hadoop)과 R 2.13.0 버전에서 구현되어 테스트되었습니다.    [세부 패키지]rmr - R에서 Hadoop MapReduce 기능을 제공하는 함수들rhdfs - R에서 HDFS 파일 관리를 하기 위해 제공되는 함수들rhbase - R에서 분산 데이터베이스 HBase를 이용하기 위해 제공되는 함수들    [GitHub 링크] https://github.com/RevolutionAnalytics/RHadoop/wiki    	]]>
	</description>
	<pubDate>Thu, 08 Sep 2011 13:19:39 +0900</pubDate>
	<dc:creator><![CDATA[묵호칼치]]></dc:creator>
</item>
<item>
	<title><![CDATA[[Hadoop] 테스트 MRUnit &amp; Mockito]]></title>
	<link>http://entireboy.egloos.com/4618199</link>
	<guid>http://entireboy.egloos.com/4618199</guid>
	<description>
	<![CDATA[ 
하둡 테스트를 위해 MRUnit과 Mockito를 사용한 예제([Hadoop] MRUnit,Mockito를 사용한 테스트 케이스 작성 -Mapper-)를 찾아봤다. 링크를 보면 테스트를 작성하는 내용이 잘 나와 있다. 나도 슝슝 따라 했는데.. 결과는 만족.. 그리고 MRUnit을 사용하기로 결정..    내 경우에는 Mockito를 사용하는데 문제가 좀 있었다. Driver에서 Mapper와 Reducer로 넘겨주는 정보들이 몇 개 있는데, 이 때 Configuration에 값을 설정해서 전달했다. 때문에 Configuration을 사용해야 하는데, Context를 mock으로 생성하는 Mockito의 경우는 Context.Configuration이 null이 되기 때문에 사용할 수가 없었다.    아래 	]]>
	</description>
	<pubDate>Tue, 30 Aug 2011 14:36:03 +0900</pubDate>
	<dc:creator><![CDATA[Sigel's house made of ice 。。。]]></dc:creator>
</item>
<item>
	<title><![CDATA[[Hadoop] wrong key class 오류]]></title>
	<link>http://entireboy.egloos.com/4610360</link>
	<guid>http://entireboy.egloos.com/4610360</guid>
	<description>
	<![CDATA[ 
어허~ wrong key class라는데.. 어디가 문제인지 모르겠다.    11/08/09 09:43:50 INFO mapred.JobClient:  map 0% reduce 0%  11/08/09 09:44:00 INFO mapred.JobClient: Task Id : attempt_201108090850_0013_m_000000_0, Status : FAILED  java.io.IOException: wrong key class: class foo.bar.SomeClass is not class org.apache.hadoop.io.Text      at org.apache.hadoop.mapred.IFile$Writer.append(IFile.java:164)      at org.apache.ha	]]>
	</description>
	<pubDate>Tue, 09 Aug 2011 10:02:30 +0900</pubDate>
	<dc:creator><![CDATA[Sigel's house made of ice 。。。]]></dc:creator>
</item>
<item>
	<title><![CDATA[[Hadoop] Mapper/Reducer를 찾지 못 할 때 - NoSuchMethodException]]></title>
	<link>http://entireboy.egloos.com/4567862</link>
	<guid>http://entireboy.egloos.com/4567862</guid>
	<description>
	<![CDATA[ 
Hadoop 예제가 잘 됐었는데.. 어제 뭔가를 손댔는데 동작하지 않는다. 그런데 하루가 지나지도 않았는데 그 뭔가가 기억이 나지 않는다. (이럴 때가 제일 난감 TㅅT)    해당 클래스와 생성자(hadoopSite.WordCount$Map.&amp;lt;init&amp;gt;())가 분명히 있는데 아래처럼 NoSuchMethodException을 뱉으며 실행이 되지 않는다. 흠.. 있는데도 못 찾는 원인이 뭘까??    $ hadoop jar HadoopSiteExample.jar hadoopSite.WordCount wordcount/input wordcount/output  11/04/28 11:19:20 INFO input.FileInputFormat: Total input paths to process : 2 	]]>
	</description>
	<pubDate>Thu, 28 Apr 2011 14:18:50 +0900</pubDate>
	<dc:creator><![CDATA[Sigel's house made of ice 。。。]]></dc:creator>
</item>
<item>
	<title><![CDATA[하둡 소개 문서]]></title>
	<link>http://Agbird.egloos.com/5423801</link>
	<guid>http://Agbird.egloos.com/5423801</guid>
	<description>
	<![CDATA[ 
  작년 상반기에 신입 사원 교육을 위해 만들었던 문서이다.  전반적인 overview 수준이지만 워낙에 하둡과 관련된 한글 문서가 희귀하니 이거라도 다른 사람들에게 도움이 되지 않을까 싶어 내용 중 회사 시스템이나 업무와 관련된 내용을 언급한 부분은 삭제하고 올린다.  	]]>
	</description>
	<pubDate>Sat, 15 Jan 2011 12:07:43 +0900</pubDate>
	<dc:creator><![CDATA[gimmesilver's  blog]]></dc:creator>
</item>
	</channel>
</rss>

