<?xml version="1.0" encoding="UTF-8"?>
<?xml-stylesheet href="http://valley.egloos.com/rss/style/style.xsl" type="text/xsl" media="screen"?>
<rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/">
	<channel>
		<title>이글루스 'lda' 태그 최근글</title>
		<link>http://valley.egloos.com/tag/lda</link>
		<description>lda</description>
		<language>ko</language>
		<pubDate>Wed, 14 Oct 2009 12:05:24 +0900</pubDate>
		<generator>Egloos</generator>
		<item>
	<title><![CDATA[텍스트의 통계학: (3) 네 주제를 알라]]></title>
	<link>http://nullmodel.egloos.com/1958448</link>
	<guid>http://nullmodel.egloos.com/1958448</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/76x100/http://pds15.egloos.com/pds/200910/14/94/a0007594_4ad4a0b873b46.png"  
				alt="텍스트의 통계학: (3) 네 주제를 알라" 
				width="76px"  
				height="100pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/>  텍스트의 통계학: (1) 구글신의 새 마음  텍스트의 통계학: (2) 셰익스피어의 영혼은 몇 그램?    지난 번에는 간단하게 단어의 순서, 즉 문법을 통계적으로 분석하는 방법을 알아보았다. 제대로 문법을 분석하려면 일단 문법 이론부터 설명해야하니까 그건 과감하게 넘어가겠다. 원래 이 연재가 좀 수박 겉핥기다.    이번에는  텍스트의 '주제'를 통계적으로 파악하는 방법을 다뤄보도록 하겠다. 일단 시작은 지난 번과 마찬가지로 유니그램(unigram) 모형이다.    지난번에는 까만 동그라미를 여러 개 그려놓았는데 이번에는 까만 동그라미 주변에 네모를 쳐놨다. 그래프 모형에서 네모는 그 안에 있는 기호들이 반복된다는 의미다. 즉, 하나의 텍스트에는 여러 개의 단어가 반복되고, 이것이 인터넷 전체에 반복된다는	]]>
	</description>
	<pubDate>Wed, 14 Oct 2009 12:05:24 +0900</pubDate>
	<dc:creator><![CDATA[Null Model]]></dc:creator>
</item>
<item>
	<title><![CDATA[이글루스 5월의 떡밥들]]></title>
	<link>http://nullmodel.egloos.com/1912746</link>
	<guid>http://nullmodel.egloos.com/1912746</guid>
	<description>
	<![CDATA[ 
<img 
				src="http://thumb.egloos.net/100x76/http://pds13.egloos.com/pds/200906/01/94/a0007594_4a22b313f31e1_t.png"  
				alt="이글루스 5월의 떡밥들" 
				width="100px"  
				height="76pxpx"
				align="left"
				style="border:1px solid #DDDDDD;margin:0 10px 10px 0px;"
				/>  텍스트 처리에 사용하는 인공지능 알고리듬을 이용해 지난 5월 한 달동안 이글루스에서 어떤 이야기가 오고갔는지 정리해보았다. 우선 간단한 로봇을 만들어 이글루스 뉴스밸리에 5월 한 달동안 올라온 포스트들을 수집했다. 삭제된 포스트, 폐쇄되거나 주소가 변경된 블로그, 외부 블로그는 제외했다.    먼저 전체적인 통계를 보자. 수집된 포스트는 모두 5,731개로 일평균 약 185개의 글이 뉴스밸리에 올라왔다. 일별로 포스팅 수를 보면 5월 중순까지 하루 100여개 정도의 포스트가 올라오다가 노무현 전 대통령이 서거한 23일에는 860건의 포스트가 올라왔고 그후로 다시 포스트가 차츰 줄어들고 있다.     아래 그래프에서 빨간 선은 수집된 전체 포스트의 수를 나타낸다. 이 중 길이가 너무 짧은 글들은 분석에서 제	]]>
	</description>
	<pubDate>Mon, 01 Jun 2009 13:16:37 +0900</pubDate>
	<dc:creator><![CDATA[Null Model]]></dc:creator>
</item>
	</channel>
</rss>

