<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="http://valley.egloos.com/rss/style/style.xsl" type="text/xsl" media="screen"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
	<channel>
		<title>이글루스 'crawler' 태그 최근글</title>
		<link>http://valley.egloos.com/tag/crawler</link>
		<description>crawler</description>
		<language>ko</language>
		<pubDate>Tue, 03 Feb 2009 21:07:06 +0900</pubDate>
		<generator>Egloos</generator>
		<item>
	<title><![CDATA[Javascript Link처리가 가능한 Web Cralwer]]></title>
	<link>http://esconsult.egloos.com/1345534</link>
	<guid>http://esconsult.egloos.com/1345534</guid>
	<description>
	<![CDATA[ 
우리나라(특히 관공서)의 홈페이지를 자세히 들여다 보면 특이한(?) 방식으로 HyperLink를 구성하는 걸 볼 수가 있다.   보통의 링크는  &amp;lt;A href=&quot;http://esconsult.egloos.com/&quot; target=&quot;_blank&quot;&amp;gt;Enterprise Search Consulting&amp;lt;/A&amp;gt;  &amp;lt;A href=&quot;../index.html&quot;&amp;gt;메인&amp;lt;/A&amp;gt;  처럼 사용되는데 비해 Javascript가 사용되는 링크는  &amp;lt;A href=&quot;javascript:gomain();&quot;&amp;gt;메인페이지&amp;lt;/A&amp;gt;  &amp;lt;A href=&quot;#&quot; onclick=&quot;gomain()&quot;&amp;gt;메인페이지&amp;lt;/A&amp;gt;  &amp;lt;TD onclick=&quot;gomail(1)&quot;&amp;gt;메인	]]>
	</description>
	<pubDate>Tue, 03 Feb 2009 21:07:06 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[[open source]Smart and Simple Web Crawler]]></title>
	<link>http://esconsult.egloos.com/642106</link>
	<guid>http://esconsult.egloos.com/642106</guid>
	<description>
	<![CDATA[ 
  링크:    아파치 라이센스이며 루씬과 마찬가지로 라이브러리 형태이다.    간단설명  ---------------  Smart and easy framework thats crawls a web site Integrated Lucene support It's simple to integrate the framework in own applications The crawler can start from one or from a list of links Two crawling models available: Max Iterations: Crawls a web site through a limited number of links: Fast model with a small memory footprint an	]]>
	</description>
	<pubDate>Wed, 30 Jul 2008 10:10:03 +0900</pubDate>
	<dc:creator><![CDATA[Enterprise Search Consulting]]></dc:creator>
</item>
<item>
	<title><![CDATA[Deep web까지 자동 수집 해주겠다고 나선 구글봇(Googlebot)]]></title>
	<link>http://roess.egloos.com/4291576</link>
	<guid>http://roess.egloos.com/4291576</guid>
	<description>
	<![CDATA[ 
HTML form 을 이용한 웹페이지 수집  Crawling through HTML forms  [via Google Webmaster Central Blog, 2008.04.11]      구글이 크롤러(Crawler)를 개선하여 이른바 &quot;Deep Web&quot; 이나 &quot;Invisible Web&quot;로 알려진 HTML form 입력 이후의 동적 생성 페이지들까지 자동화된 인덱싱(indexing)의 대상으로 삼는 실험을 수 개월 전부터 진행하고 있다는군요.    보통 &amp;lt;form action=...&amp;gt; 태그를 사용하여 입력을 받는 요소들이 포함된 페이지는 브라우저 상에서 사용자 (그러니까 진짜 '사람' 사용자;;)의 직접적인 오퍼레이션이 있기를 기대하며 제작되는 것이고, 이 페이지들에 뭔가 자동화된 프로세스가 	]]>
	</description>
	<pubDate>Mon, 14 Apr 2008 20:39:00 +0900</pubDate>
	<dc:creator><![CDATA[Roess' 127.0.0.1]]></dc:creator>
</item>
	</channel>
</rss>

