<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="http://valley.egloos.com/rss/style/style.xsl" type="text/xsl" media="screen"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
	<channel>
		<title>이글루스 'solr' 태그 최근글</title>
		<link>http://valley.egloos.com/tag/solr</link>
		<description>solr</description>
		<language>ko</language>
		<pubDate>Fri, 27 Mar 2009 23:10:37 +0900</pubDate>
		<generator>Egloos</generator>
		<item>
	<title><![CDATA[Lucene 한글 복합명사 처리]]></title>
	<link>http://dansang.egloos.com/2273914</link>
	<guid>http://dansang.egloos.com/2273914</guid>
	<description>
	<![CDATA[ 
Lucene 에서 한글 복합명사를 처리할 때 발생하는 난감한 상황입니다. 한글 처리는 korlucene 을 이용했습니다.복합명사로 검색할 때와 명사를 띄어 써서 검색할 때 검색 결과가 다르게 나타납니다.그 이유를 설명드리겠습니다.  name 이란 필드에서 &quot;만성간염&quot; 이란 단어를 검색한다고 가정하겠습니다. 현재는 &quot;만성간염&quot;을 KoreanFilter 로 처리하면,  term position1term text간염만성간염만성  처럼 나옵니다. term position 이 동일한 것들은 유의어 처럼 처리를 합니다.따라서, 최종적으로 생성되는 Query 는 BooleanQuery 이고, 이를 String 형태로 보면  name:간염 name:만성간염 name:만성  이 됩니다. 따라서, &quot;간염&quot;, &quot;만성간염&quot;, &quot;	]]>
	</description>
	<pubDate>Fri, 27 Mar 2009 23:10:37 +0900</pubDate>
	<dc:creator><![CDATA[단상]]></dc:creator>
</item>
<item>
	<title><![CDATA[solr를 이용한 또다른 ^^ 검색서비스 오픈]]></title>
	<link>http://zeous.egloos.com/2245025</link>
	<guid>http://zeous.egloos.com/2245025</guid>
	<description>
	<![CDATA[ 
  solr와 함께 좌절중 이란 글이 작년 11월 이었으니 3개월후인 어제 무사히 오픈을 마무리 하였다.   참 힘들고 우여곡절도 많고 ^^ 이런것이 나름 노하우가 쌓인다고 하는것인가?    저번에 실패로 깨달은 것은 검색서버의 한계치가 있다는 것이었고   그 수치에 이미 회사의 서비스가 많이 근접해있다는 것이었다.     테스트할때는 1억건까지 데이터를 만들어서 조회테스트를 해보았었는데   조회만을 돌려서 성능을 측정하는것은 실서비스의 운영과 다르기에 의미가 없었다.  조회, 추가, 삭제, commit을 모두 합친 형태로 스트레스 테스트를 했어야만 정확한 수치를 알수 있었다.    solr의 위키에 있는 master/slave 구조도 마찬가지이다.   slave에 commit을 하는 순간 고통스러워하는 서	]]>
	</description>
	<pubDate>Wed, 25 Feb 2009 11:06:19 +0900</pubDate>
	<dc:creator><![CDATA[결론에 가보기]]></dc:creator>
</item>
<item>
	<title><![CDATA[solr 와 함께 좌절중..]]></title>
	<link>http://zeous.egloos.com/2151182</link>
	<guid>http://zeous.egloos.com/2151182</guid>
	<description>
	<![CDATA[ 
어제가 오픈일이었다. 새로운 검색서비스가...   solr 1.2로 1600만건정도를 잘 색인하고 검색서비스를 제공하고 있었다.다른쪽에 추가적인 검색서비스가 필요하다고 해서 몇번의 회의를 하였었다.이미 기존의 서비스를 같이 해본 사람들이었고 스펙도 크게 다르지 않아서 방심을 하였다 ㅠㅜ  사실 방심보다는 다른쪽으로 짜증이 조금 나 있었다.같이 일하는 사람들이 너무나도 도움을 안주는 것이었다. 지금 잘 동작하지 않는 검색서버를 교체해준다는 것이었는데.. 샘플데이터를 보고 싶다라고 하니 그냥 테이블 이름 알려주면서 보란다.  투덜투털 되면서 친한 DBA한테 가서 사정사정 해서 데이터를 요청하였는데..점점 일이 커지기 시작한다. 데이터가 2600만건으로 기존 서비스보다 더 크다..  윽.. 사이즈가 작은지 알고 	]]>
	</description>
	<pubDate>Wed, 26 Nov 2008 16:14:58 +0900</pubDate>
	<dc:creator><![CDATA[결론에 가보기]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR] 루씬용 한글형태소 분석기 solr에 적용 성공]]></title>
	<link>http://esconsult.egloos.com/982378</link>
	<guid>http://esconsult.egloos.com/982378</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/76x100/http://pds12.egloos.com/pds/200810/20/30/f0057030_48fc652345a4e_t.png"  
				alt="[SOLR] 루씬용 한글형태소 분석기 solr에 적용 성공" 
				width="76px"  
				height="100pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/> 얼마전 루씬용 한글형태소 분석기를 solr에 적용시키지 못하였었는데 형태소분석기를 만드신 smlee0818님이 solr 1.3에서 구동테스트를 성공하셨다고 하여, 재도전 해보기로 하였다.이번에는 컴파일에 에러가 발생하지는 않았지만, 실행중에 같은 에러가 발생하였다.  에러 메세지로 보아 아무래도 프로그램이 아닌 설정에 문제가 있을 것으로 판단되어, 사전을 별도로 저장해 보기로 하였다.그리하여 성공!!!   내가 편집한 apache-solr-1.3.0.war파일을 첨부하니, 필요한 사람은 다운로드 받아서 사용하시길....	]]>
	</description>
	<pubDate>Mon, 20 Oct 2008 20:01:56 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR] 루씬용 한글형태소 분석기 solr에 적용 사례]]></title>
	<link>http://esconsult.egloos.com/961906</link>
	<guid>http://esconsult.egloos.com/961906</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/100x76/http://pds10.egloos.com/pds/200810/16/30/f0057030_48f6a4165ba37_t.png"  
				alt="[SOLR] 루씬용 한글형태소 분석기 solr에 적용.." 
				width="100px"  
				height="76pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/> smlee0818님의 블로그에 순수 java로 만든 한글 형태소분석기를 발표(?) 하였다.  지난번에도 이야기 했듯이 lucene, solr에서 사용가능한 제대로된 한글 형태소분석기를 찾던 중 이었으니, 반가운 소식이 아닐 수 없다.  얼마나 많은 수고를 해서 만들었을지는 않봐도 비디오니, 일단 고맙다는 인사는 꼭 해야 할 것이다.형태소분석 라이브러리를 살짝 뜯어보면,  기본적으로 강승식 교수님의 논문을 기반으로 만들었고, 데모페이지를 보면 어느정도 성능이 나오는 걸 확인할 수 있다.  구조적으로 보면 &quot;사용자정의 사전&quot;이 어려운 구조로 되어 있어 편집이 쉽지가 않았다.나는 solr에 포팅하기 위해 몇가지 작업을 해보았다. lucene의 analyer를 solr에 이용하기 위해서는 2가지 방법이 있다.첫번째	]]>
	</description>
	<pubDate>Thu, 16 Oct 2008 11:16:56 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR]한글 웹문서 색인을 위한 Tokenizer, Filter세팅방법]]></title>
	<link>http://esconsult.egloos.com/900258</link>
	<guid>http://esconsult.egloos.com/900258</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/100x76/http://pds11.egloos.com/pds/200810/02/30/f0057030_48e4145b1f5b4_t.png"  
				alt="[SOLR]한글 웹문서 색인을 위한 Tokenizer, F.." 
				width="100px"  
				height="76pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/> HTML로 구성된 웹문서를 색인하기 위해서는 기본적으로 HTML테그의 내용을 제거하는 필터링 작업이 필요하다.  solr는 이미 HTMLStripWhitespaceTokenizerFactory라는 HTML의 테그를 제거하고 색인할 수 있는 방법을 제공한다. schema.xml파일 &amp;lt;fieldType name=&quot;html&quot; class=&quot;solr.TextField&quot; positionIncrementGap=&quot;100&quot;&amp;gt;   &amp;lt;analyzer type=&quot;index&quot;&amp;gt;         &amp;lt;tokenizer class=&quot;solr.HTMLStripWhitespaceTokenizerFactory&quot; /&amp;gt;   &amp;lt;/analyzer&amp;gt;   &amp;lt;analyzer type=&quot;query&quot;&amp;gt;   	]]>
	</description>
	<pubDate>Thu, 02 Oct 2008 09:22:53 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR]색인방법에 대한 개인적인 견해]]></title>
	<link>http://esconsult.egloos.com/891783</link>
	<guid>http://esconsult.egloos.com/891783</guid>
	<description>
	<![CDATA[ 
나는 개인적으로 (여건이 가능하다면) ngram의 분석방법을 선호하는 편이다. 왜냐하면 형태소분석방법이 가지는 여러가지 장점에도 불구하고 오분석시에 나타나는 치명적인 오류를 개선할 방법이 재색인밖에는 없는 경우가 많아서이다.ngram의 오류는 주로 나오지 말아야 할 문서가 검색된다는 것이지만, 형태소분석의 (주로 복합명사의) 오분석은 나와야 할 문서가 나오지 않는 현상이기 때문이다.예를들어 &quot;아산신도시&quot;이라는 단어를 형태소분석기가 &quot;아산신&quot;, &quot;도시&quot;로만 분석했을 경우에는 &quot;아산&quot;으로 검색결과가 나오지 않는다.  하지만 이를 ngram으로 분석을 하면 검색결과로 나오게 된다.따라서, 지속적인 형태소분석기 관리(주로 사전관리)를 해 줄 수 없는 환경이거나 법률용어처럼 띄어쓰기가 거의 없어서 형태소분석 오류가 	]]>
	</description>
	<pubDate>Tue, 30 Sep 2008 09:54:40 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR] solr의 다양한 가중치 적용방법]]></title>
	<link>http://esconsult.egloos.com/866872</link>
	<guid>http://esconsult.egloos.com/866872</guid>
	<description>
	<![CDATA[ 
boost기법이라 하면 검색엔진에서 검색어, 문서, 필드별로 별도의 추가(혹은 감소)가중치를 적용하는 방법을 이야기하며, 이를 가지고 업무환경에 적합한 검색결과를 얻을 수 있도록 하는 것을 말한다.  예를들어 문서의 &quot;제목&quot;은 &quot;본문&quot;보다 가중치를 높게 주어 같은 단어가 제목에서 나온 경우를 우선적으로 보여줄 수 있도록 하는 경우를 말할 수 있을 것이다.solr는 &quot;색인&quot;, &quot;검색&quot;시에 각각의 boost방법들을 제공한다.색인시문서 boosting  boost = &amp;lt;float&amp;gt; ? default is 1.0필드 boosting  boost = &amp;lt;float&amp;gt; ? default is 1.0    1: &amp;lt;add&amp;gt;   2:   &amp;lt;doc boost=&quot;2.5&quot;&amp;gt;   3:    	]]>
	</description>
	<pubDate>Wed, 24 Sep 2008 16:56:32 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR] SOLR 새버전(1.3) 배포]]></title>
	<link>http://esconsult.egloos.com/842175</link>
	<guid>http://esconsult.egloos.com/842175</guid>
	<description>
	<![CDATA[ 
2008년 9월 15일에 solr 1.3버전이 배포되었으며, 다운로드는 Apache Mirror페이지에서 받을 수 있다.  Release Notes를 대충봐도 정말 많은 새로운 기능과 bug fix가 이루어진것을 알 수 있다.   그럼 대강 어떤 내용들이 바뀌었는지 대강 살펴보자.  빠진 내용이 있으니 절대로 원문을 다시 읽어 보기 바람.lucene이 snowball기반의 stemmer가 업데이트되어 (영문의) 색인추출방식이 달라졌다.  따라서 (주로 영문 문서인 경우에는) 재색인을 추천!!configuration file은 바꿀 필요없음http프로토콜의 &quot;304 Not Modified&quot;를 인식할 수 있도록 설정가능1.2보다 정교한 DateField 값을 요구python client를 더 이상 배포 하지 않	]]>
	</description>
	<pubDate>Thu, 18 Sep 2008 13:32:55 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR]색인/검색 분석도구 - Analysis]]></title>
	<link>http://esconsult.egloos.com/815361</link>
	<guid>http://esconsult.egloos.com/815361</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/100x76/http://pds11.egloos.com/pds/200809/11/30/f0057030_48c870a70cc13_t.png"  
				alt="[SOLR]색인/검색 분석도구 - Analysis" 
				width="100px"  
				height="76pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/> solr에는 아주 괜찮은 분석도구가 몇가지 있는데 그 중에 하나가  지금 얘기하려는 &quot;analysis&quot;이다.이 도구는 색인과 검색시에 문장이 어떻게 tokenizing되는지를 실제로 확인시켜 줌으로써 분명히 문서에 해당 단어가 있는데 왜 검색이 않돼는지왜 전혀 관계 없는 이상한 검색결과가 나오는지어떤 분석방법을 사용하는게 가장 좋을지를 확인할 수 있도록 하고 있다. 일단 URL은로 들어가면 다음과 같은 화면이 나오게 된다. &quot;Field name&quot;에는 conf/schema.xml파일에 정의한 필드명 중에 하나를 넣는다.  (필드별로 색인방법이 다르게 셋팅되어 있을 경우에는 원하는 필드명을 넣어야 한다.)   &quot;Field value(Index)&quot;에는 살펴봐야할 문서의 해당 필드값을 넣는다.&quot;Field value	]]>
	</description>
	<pubDate>Thu, 11 Sep 2008 10:13:14 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR]jsp에서 solr연결하여 검색하기...]]></title>
	<link>http://esconsult.egloos.com/665093</link>
	<guid>http://esconsult.egloos.com/665093</guid>
	<description>
	<![CDATA[ 
SolrJ라는 java Client를 이용하도록 하겠다.    solr 1.3에 기본으로 들어있기는 하지만 1.2에는 아직 없고 또 1.2에서 마땅한 java client를 찾지 못하였기 때문에 걍 이걸로 사용해 보도록 하겠다.    1. 우선 solr 1.3 nightly version를 받는다.    2. 압축을 해제한후 lib폴더에서 아래 파일들을 tomcat의 lib폴더로 copy한다.      commons-io-1.3.1.jar       commons-httpclient-3.1.jar       commons-codec-1.3.jar       commons-logging-1.0.4.jar       apache-solr-common-nightly.jar       apache-solr-solr	]]>
	</description>
	<pubDate>Tue, 05 Aug 2008 15:31:06 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR]검색 Score는 어떻게 산정되나?]]></title>
	<link>http://esconsult.egloos.com/643362</link>
	<guid>http://esconsult.egloos.com/643362</guid>
	<description>
	<![CDATA[ 
  출처 :    TF(term frequency)                     : 한 문서에서 같은 검색어(term)가 많이 나타날수록 높은 점수를 부여IDF(inverse document frequency) : 많은 문서에서 공통으로 출현하는 term일수록 낮은 점수를 부여coord(coordination factor)            : 검색질의가 여러개의 term으로 이루어졌을 경우 문서에서 매치되는 term갯수가 많을수록 높은 점수 부여lengthNorm                                : term이 크기가 작은 필드에서 출현할 수록 높은 점수 부여index-time boost                        : 색인시 특정 문서에 가중치를 적용했을 경우q	]]>
	</description>
	<pubDate>Wed, 30 Jul 2008 17:53:41 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR] SOlR 1.2 Windows 설치기 - 한글 셋팅 포함]]></title>
	<link>http://esconsult.egloos.com/634609</link>
	<guid>http://esconsult.egloos.com/634609</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/100x76/http://pds8.egloos.com/pds/200807/28/30/f0057030_488d51efcc9b5_t.gif"  
				alt="[SOLR] SOlR 1.2 Windows 설치기 - 한글 셋팅.." 
				width="100px"  
				height="76pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/>   1. SOLR 1.2를 내려 받는다.              2. 내려받은 파일을 압축해제 한 후   example 디렉토리에서         java -jar start.jar  를 실행 시킨 후 브라우저를 통해          에 연결하면 다음과 같은 관리자 화면이 나타나야 한다.      만약 정상적인 java가 실행되지 않는다면 JRE or JDK 1.5이상이 설치되어 있는지를 확인하고 JAVA_HOME이 정상적으로 셋팅되어 있는지를 확인한다.  (이 과정은 정상적으로 수행이 가능한지 여부만 확인한다.)    3. tomcat를 내려 받는다.              4. tomcat를 설치한다.    5. 2번 디렉토리의 dist 디렉토리의 apache-solr-1.2.0.war파일 별도의 디렉토	]]>
	</description>
	<pubDate>Mon, 28 Jul 2008 14:35:27 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[Enterprise Search Vendor Landscape, Circa 2008]]></title>
	<link>http://esconsult.egloos.com/623315</link>
	<guid>http://esconsult.egloos.com/623315</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/100x76/http://pds8.egloos.com/pds/200807/25/30/f0057030_48898439b59b6_t.jpg"  
				alt="Enterprise Search Vendor Landscape, Ci.." 
				width="100px"  
				height="76pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/> 2008년 2월에 CMS Watch에서 제작한 &quot;The Enterprise Search Report 2008&quot;의 내용 중 일부이다. 큰 이미지 :   외국 자료이기 때문에 당연히 한국 제품은 없다.  보는 방법 :   1. Size                        : Vender를 표현하는 원이 클수록 매출규모가 큰 업체   2. Fouce on Search      : 원의 내부 색으로 표현되며 기업검색에 편중되어 있는 지 여부( 노란색이 많을 수록 )   3. Vendor Evolution       : Vender 내부적인 혁신이 일어나고 있는지 여부   4. Product Devlopment  : Vender의 제품들이 계속적인 개발이 되고 있는지 여부  출처 :  ------  내 느낌..	]]>
	</description>
	<pubDate>Fri, 25 Jul 2008 16:52:19 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[SOLR] solr와 tomcat연동시 한글검색이 않돼는 경우]]></title>
	<link>http://esconsult.egloos.com/622801</link>
	<guid>http://esconsult.egloos.com/622801</guid>
	<description>
	<![CDATA[ 
solr를 설치하고 tomcat과 연동을 한 후 색인까지 했는데 검색이 않돼는 경우가 발생하였다.    혹시 색인이 잘못된 것은 아닐까?   몇번을 확인했지만 영어로 검색한 검색결과화면에서 정상적으로 한글이 보여지는 걸 보니 색인은 잘된 것 같은데...    몇시간의 삽질 끝에 인터넷에서 다음의 글을 찾아서 셋팅하니 아주 잘 보인다.    --------------    The conclusion is that setting URIEncoding=&quot;UTF-8&quot; in the section in server.xml    출처 :    --------------    URIEncoding을 설명하는 tomcat manual에는 다음과 같이 나온다.    URIEncoding  This specifies the c	]]>
	</description>
	<pubDate>Fri, 25 Jul 2008 14:06:27 +0900</pubDate>
	<dc:creator><![CDATA[슈퍼맨님의 이글루]]></dc:creator>
</item>
	</channel>
</rss>

