星期二, 7月 25, 2006

Special Topics - 2

I prepared the presentation of introduce the category of researches about Social Network these days. Because last week i didn't prepare the powerpoint file and didn't speak well when meeting and some places also met chaos in my brain, I reprepare what I want to introduce.

Finding the "Applications" of these research areas is not quite an easy job for me but this is one of the important aspect I have to understand. Many researches are focus on creating a general way to solve "a set of" problems having same features. For me, I can not deeply imagine on how they can use to do something in real life. Maybe I have to train myself to do more thinkings, just as the GRE AWA test, also needs wide views of the world.

But I still pick up some examples about what these research can do in real life from the papers, and most of them are from the experiment section. Little by little, it really is not an easy job in Researching some things and may be lonely or boring some times, but reading and learning new things from other people is truly interesting. Although I don't know if I'd really like to do Research, but I'll keep going and finish them step by step. At least, experience it and make it this time.

星期六, 7月 15, 2006

Special Topics - 1

                                       
Meeting 那天, 輕台來襲  
                                     
儘管颱風走了, 台灣附近的雲層還是很濃厚.
   
這禮拜輕度颱風來襲, 雖然事後證明它的來臨對生活沒有影響, 但事前也沒料到它的強度, 因此家人也要我待在家中顧家, 儘管全台灣幾乎還是照常上班上課的 。。。 Meeting 也就漏了一次
對 Social NetWork 有了小小的了解之後, 接著我想對手中已經掌握的大約 20 篇 paper作個分類. 藉由題目以及 Abstract 我把它們要解的問題大約分成了幾類 :

-
About Link : 看一個 Link 是不是有存在的必要, 可以達到簡化 graph 的功效 ; 看 Graph 中的各個 Node 是不是隱含有其他的Interaction. 
-About SubGraph : 關於 Community 的議題, 例如找 Graph 中的community ; 或是在 Graph 中尋找關於某些特定條件的 SubGraph 的議題.
-Search : 把 Node 作Rainking.
-Classify : 把 Graph 分類.
-Mining From : 這個部份的就比較模糊了, 可能會和其他的部分有 Over Map, 主要是探討從不同種類的 Graph 或是 資料中去 Mining. 至於 mining 的目的, 大概要再去詳讀 paper 來了解.

在稍加分類之後, 再去閱讀了 SIGKDD 2005 Vol.7 裡面有一篇 Link Mining : A Survey. 發現文中的分類就比我大略分出來的好上許多.

它先提到了關於 Data Representation 的部份, 這個部份在 Link Ming 是很重要的, 要表現的東西可能可以由很多種不同的圖來表示, 譬如 G 可以經由某種轉換變為 G', 它們所蘊含的內容是一樣的, 但是對於每種不同的主題, 就得要找一種最適合的來表示, 否則可能對於準確度或是方便性都會有影響.

接著他對 Link Mining 的分類如下(Copy From The Paper) :
1. Object-Related Tasks
  (a) Link-Based Object Ranking
 (b) Link-Based Object Classi cation
 (c) Object Clustering (Group Detection)
 (d) Object Identi cation (Entity Resolution)
2. Link-Related Tasks
 (a) Link Prediction
3. Graph-Related Tasks
 (a) Subgraph Discovery
 (b) Graph Classi cation
 (c) Generative Models for Graphs
這樣的分類結果, 的確就讓人感覺清楚多了.

可以發現, 原本我的分類跟這個分類有些類似之處. 但是我又遺忘了 Classify 與 Cluster 是有分別的. 它也把問題的分類的分成比較令人清楚的程度(至少比我的還要清楚) : 它是分別探討了 Node / Link / Graph這上面的議題, 而我一時間是把它們雜在了一起.

接著, 我想到我有 Jiawei Han 的 Data Mining 課本最新板本(2nd Edition)裡面新增的 第九章 : Chapter 9 Graph Mining, Social Network Analysis, and MultirelationalData Mining.
老師原本說這要 "最後" 再來看, 但是我想, 到底什麼時候才是最後呢 ... 所以我就選擇先偷看了一下 ~ 我覺得這時候來看應該OK啦 ~ 畢竟我已經有 "一點點" 的了解了 XD

課本的第一節是介紹了已經發展一段時間的 Graph Mining. 接著才介紹目前比較複雜的 Social NetWork Mining 或是 MultiRelational Mining. 我嘗試迅速的閱讀每一頁裡面提到關於 WHAT 的部份, 幾個小時大概看完了一節多. 文中主要是敘述了各種相關的 Graph Mining 以及應用, 有些方法也有提到演算法之類的, 但是每種方法的篇幅都不會很多, 大概少於一頁. 裡面提到了很多利用在 化學或是生化 領域的應用, 大概目前這些領域的 Data 主要的表現方法都是 Graph 吧, 像是化學分子等等.
接著第二節也講了一些 Social Network 的特性, 也有做分類, 但是分類出來的就沒有那篇 Survey 來得清晰.

看著看著, 對於 Social NetWork 的"表面的" What, 已經是經過一次一次的補強, 大概可以"抽象"的知道有哪些, 對於老師所說要 "具體" 的了解, 還是有段差距. 至少, 還沒有辦法掌握住這些 What 背後的意義 ...

所以, 接下來還是 --- 看 Paper XD.   先依照著自己分類好的, 一堆一堆的看吧 ...
但是, 沒錯" ... 進度上, 時間已經慢上許多了 XD  Meeting 前要先了解個 3,5 篇才行呢.

感覺看了一些東西了, 也以為是如此.
但是回頭一望, 卻又發現 ... 根本什麼也沒看 ~"~

Related Link :
Data Mining: Concepts and Techniques, 2nd ed.
(Jiawei Han and Micheline Kamber)
http://www-sal.cs.uiuc.edu/~hanj/bk2/

Link Mining : A Survey.
(From :
SIGKDD , December 2005, Volume 7, Issue 2.)

星期日, 7月 09, 2006

Meeting 暑假 - 0

老師的"偶像" 之一 (?) --- Christos Faloutsos
今天是標準的暑假大熱天, 太懶惰的關係, 很晚才到學校. 原來老師要等我到了才一起咪 ~ 看來我把時間拖晚了, 下次得早點到才行 ...

今天算是另一個開場 ...
主要是對接下來的步驟有點茫然,因此想和老師討論討論, 看說接下來該怎麼做比較好. 當然, 完全不經思考的把之前發的 paper 都唸完也是一條路啦 ... 只是 ... 在此我先沒有這麼做

我先拿到了老師所印的 Jiawei Han 最新版的 Data Mining 課本的其中的一個章節, 是關於 Link Mining 的內容. 頁數滿多的, 但老師說這個是要等最後才看的, 要我先自己整理 paper 完後先有個架構, 再跟書 (人家整理好的) 比較看看.

關於接下來的步驟, 其實有 2 個方法 :
第一種就是讓我天馬行空的想, 想想要做哪些研究. 這樣的好處是可能比較會有創意的思考產物, 但也可能回重複了目前已經有人在做的研究 ;
另一種就是先閱覽目前的 paper, 如此可以了解目前世界上的發展, 但是對於自己的時間要掌握, 而且也可能被目前所看到的侷限住了.
當然, 有人是屬於看越多東西就會激發出越多新東西的, 而有人就會被所看的局限. 究竟我們是屬於哪一種呢 ? 這得要我們自己去體驗了.

還需要體驗的另一種東西是 :
有的人對於一個問題的思考, 需要說出來, 接收各方的意見 (無論意見是否正確, 關鍵點是 "說出來"), 他才有辦法把問題的解答思考出來 ; 而有的人卻是要自己一個人專注的思考, 參考些其他靜態的資料, 可能是書本或是網路, 如此他才有辦法思考問題的解答.
而我是哪種人呢 ? 或許還需要我細細觀察吧 ... 畢竟, 雖然我很少 "說出來", 但也不代表我不喜歡"說出來", 也可能只是不知道要去哪兒說 ~ 恩 ... 誰知道呢.

接著, 我得把各篇 paper 的 WHAT 先弄清楚, 必須是要具體的清楚, 接著, 每個禮拜報告出幾篇.

今天還提到了許許多多的事情, 其中還認識了一個叫做 Christos Faloutsos 的教授.
據老師所說, 這位希臘人, 在老師是學生的時後就開始密切的注意了, 在個偶然的時刻, 老師跟他對同一個問題有著一樣的想法, 但是這位希臘人數學比較厲害, 所以問題就被這位希臘人先解出來了 ~ 看的出來他應該是老師的 "偶像" 呢 ~ 這位希臘人目前在 CMU, 的確是很厲害. 當然, 他背後的人格特質, 是更值得令人學習的.

今天也講了許許多多的東西, 每次在討論的當下總覺得又多得到了很多, 但是事後回想, 能夠清楚牢記的卻又很少很少. 對於許多討論, 我所給的 feedback 也是很少很少, 即時的反應能力似乎有待學習, 就像最近 Advanced 裡面討論到關於 Listening Well & Curbing Anger 的文章, 很欠缺的就是對於 "Directly relevant question demonstrates interest and encourages the person to say more" 這部份的能力 ...

雖然不太喜歡去包裝說出來的話來達到某些目的 ... 可能顯得說出來的話很假 ... 但有時對於真實的感覺, 還是需要去學習如何細膩的表現出來吧 ...

專題的進行似乎已經看得見一條可以走的路, 然而, 對於人際之間的溝通, 卻還有很長的路要走 ...

Related Link :
Christos Faloutsos : http://www.cs.cmu.edu/~christos/



星期四, 7月 06, 2006

Meeting 暑假 Group Meeting - 1


時間走到了暑假, 做專題的時間也將進入後半段, Group Meeting 的意義也隨著個人目標的確定而與個人的 Meeting 隨之消長.

暑假的 Group Meeting, 首先, 讓大家回顧了所想、整理了所做. 無論對於之前確定的方向, 過程中已經完成的目標, 亦或是當下遇到的問題, 甚至是在未來有可能窒礙難行的部份, 今天, 先做下了一個總結.

Huey 要改進利用 FP - Tree 的 Association Classification, 即時的更新修改 Database 中的某些條件, 來達到更準確的分類效果. 已經著手於程式碼的研讀, 接著, 要修改之前的程式碼來達到這個研究的目的.

阿德準備利用某些的方法來對印象畫及古典音樂做搭配. 可能的方法會利用到 Mix Media Graph ; Mining 個別的情緒來搭配 ; 畫評 - 也就是偏向 Text Mining ; 印象畫派 & 印象樂派的關係.
目前在於需要 Learning 的 Data 不容易找到, 品質也不一, 或許在題目或是方法上會有些什麼樣的變數 (?)

八爪要對室內空間的設計圖做分類, 已經找到了一些適合當作特徵的元素, 例如顏色、光線、空間分佈, 當然也有材質等等的要素, 只是, 基於 Learning的 Data 是 3DMax 的檔案, 由於檔案的格式中所記錄的內容所限, 有些的元素比較容易分析, 例如顏色, 但像是條紋或是材質的資料就無法輕易的從檔案中來取得. 感覺起來, 簡化可以很簡化, 只是不知道分類的效果如何, 但, 要深入的分析, 可能在 Learning 的 Data 上就要下很多其他的工夫了.

我則是簡介了小世界理論, 進而到 Social Network 在 CS 這邊的些許應用. 而與專題更有相關的部份, 就得要在之後的日子慢慢的把它建構出來.

今天還談了許多教材以外的東西. 這些東西就留在自己的腦袋中, 慢慢回響吧 ...
下次的 Group Meeting, 或許要一個月後了呢.

Special Topics - 0

拿了許多的 paper 後, 接著, 便開始著手於了解目前 Social Network 的研究.

首先, 我得把那些 paper 的電子檔找到, 於是先利用 Google 就下載到了大部分的 ; 有些則是要去IEEE 或是 ACM 的資料庫搜尋, 這類的比較麻煩,因為找不到作者擺出可以直接下載到 paper 的連結 ,所以需要用學校購買的資料庫來尋找, 還需要調一些 proxy 之類的步驟才有辦法進入資料庫.最後大部分的算是順利的收集到了, 但仍有一篇 Jiawei Han 的總是找不到它的蹤跡 : 這一篇是從 2006 ACM SIGMOD 裡面出來的, 但這會議舉行的時間是 June 26-29,2006, 也正是我要找它的時候. 或許是很運氣的, 當我瀏覽到 Jiawei Han 的網頁時, 索性就尋找網頁中的 SIGMOD, 結果不巧的, 我找到了一篇他所列出來的論文, 而網頁所寫的題目跟 paper 上面的題目不完全相同, 下載看看後, 卻是一樣的, 最後一篇要尋找的 paper 檔案就被我這樣的找到了.

對於這些 paper 上的作者, 我則是留下了他們網頁的連結, 有的研究者研究的領域他就很直捷了當的就寫興趣是 "Social Network ", 而大部分的則是寫 Data mining 相關的, 但我還是把他們的連結都留了下來, 希望有昭一日有需要的時候可以隨時的注意到他們最新的研究情形. (當然, 需要到"留意其他人研究"的境界, 還需要一段日子的啦.)

可以看出來, Jiawei Han 果然是位大師, 裡面快一半的 paper 都有他的名子. 而 CMU 也有好幾篇.

之後, 對於這些 paper, 我先把各篇的 Abstract 給看了看, 看著看著, 腦中是有歸納出一些模糊的分類, 但我暫時就沒有再深入的自己去歸納, 總覺得雖然各篇 paper 寫了相當多 Social Network 相關的應用, 但我對於 Social Network 的了解卻還是相當薄弱, 因此我想先把 paper 暫時放在一旁, 先了解 Social Network 到底是什麼東西 ...

所以接著, 儘管有了些論文, 但我對 Social Network 最基本的東西也想要有些了解, 至少要先對 Social Network 的全貌有些概念, 對我而言才有辦法去想更深入的東西, 畢竟要先知道自己在做什麼嘛. 於是開始嚐試性的用 Social Network 來搜尋些網頁, 查到了許許多多的東西, 但好像對我的幫助並不大. 最後找到了一個簡介 Social Network 的投影片, 裡面, 參考了一些書籍, 於是我決定先把這些書籍借來看看, 希望能了解 Social Network 的發展, 以及關於它的一些概念及研究.

一共有兩本書 :
作者 : 華滋 (Watts, Duncan J.)
書名 : 六個人的小世界( The Science of a Connected Age.)
986-7600-31-2

作者 : 布坎南 (Buchanan, Mark)
書名 : 連結 : 混沌.複雜之後,最具開創性的「小世界」理論
( NEXUS:small worlds and the groundbreaking science of networks.)
986-417-185-2

"小世界理論" 是當初老師跟我提到這個方向時, 最先講到的詞. 而 "六個人的小世界" 的作者就是研究這個理論的大師之一. 因此, 我就選擇性的, 先來閱讀這本 " 六個人的小世界".

這本 " 六個人的小世界" 主要講述了他們如何的來研究這個理論, 由淺入深, 由簡單到複雜, 彷彿跟著作者從最原始的時候來思考 "小世界理論" 這個議題. 內容介紹了許多新的理論, 也有很多的實例 : 讀到理論的時候可能讓人覺得寸步難行, 而當讀到他舉的例子時又會覺得興致勃勃. 要深入的了解這本書, 可能會需要一些專心的思考, 否則可能某個專有名詞沒了解, 後面如果仍有提到這個詞的話就會完全的看不懂了.

讀社會科學為主幹的東西, 感覺就很像回到了讀經濟學的時候 : 有很多感覺很"親切"的定義, 感覺這些定義是很 "理所當然" 的, 但要自己思考出這些東西卻又不是這麼的容易 ; 或是, 它會有許多不同的圖表/曲線, 根據圖表作者會做出各種不同的解釋.

隨著這本書一點一滴的閱讀之後, 感覺對於研究直接實質的幫助並不是非常的大, 至少以時間來考量的話, 恐怕沒有太多的時間讓我繼續的來做這基本知識的閱讀, 於是, 接折, 想要開始著手於對那些 paper 的內容, 慢慢的來了解 ...


Related Link :
Small World Experiment
http://smallworld.columbia.edu/index.html
Duncan J. Watts
http://www.sociology.columbia.edu/fac-bios/watts/faculty.html

relief notes

relief notes

星期三, 7月 05, 2006

Elsi's Blog

Elsi's Blog

Elsi 學姊的 Blog ~

星期二, 6月 27, 2006

Meeting - Social network

暑假第二咪 ...

老師找了些關於 Social network 的資料.
印象中這個詞是以前老師提到小世界理論時有講到的 ~
接下來有幾次也有聽到老師有談到關於 Social network. 所以並不會很陌生.

老師一邊印論文一邊要我看看已經印好的 ... 一開始大概有10篇 ...
看一看 abstract 大概可以了解每一篇的內容以及它們共同的關係.
之後嘛 ... 越印越多

最後拿了大概 19 篇論文 ... 沒有破 20 XD ... 厚厚一疊
看了看, 跟以前聽到的小世界理論有些多多少少的不同.
感覺有很多不同的延伸.
但這些東西都可以用圖論來表示, 或許這是 Link Mining 中的一個小的共同點.

這禮拜嘛 ...
我得要找到那些論文的 pdf 檔案, 接著, 了解了解 Social network 是怎樣的東西.
慢慢的了解目前有哪些研究, 而我要從哪個點去著手.

星期三, 6月 21, 2006

Meeting 暑假第一咪

昨日先與老師進行了暑假第一咪.

關於阿德的部份, 他目前需要找些有圖片有音樂的檔案, 可能是 SWF 可能是 PPT.
感覺起來找資料真是十分費力的事情. 老師說大概要找個 100 個檔案.

但是跟八爪今天說的, 她要找 1000 個設計圖來 MINING 那就小巫見大巫了 ~
如果到時候沒找到就大家來畫啦

接著我的話嘛 ... 劇情真是急轉直下, 非常刺激,
由於某些因素, 我的專題決定要做比較有延展性的題材.
所以題目就得要換了 ~

儘管之前看了些關於 EMOTION 與 TEXT 的東西可能都用不到了.
但是呢 ... 還是滿愉快的 ~

Meeting 回顧 - 2

接著, 回顧大三下學期, 繳交完國科會之後的 Meeting.

這學期剩下的時間, 主要就是大家看看paper然後報告, 亦或是報告目前的進度.
來分別想想每個人報告了些什麼好了 :

阿德報告了些關於圖畫的特徵及擷取的東西, 並要跟適合的音樂來結合.
一開始介紹了很多畫的畫風, 以及可以用哪些的要素來分析 ;
再來就是報告一些可以使用的方法, 主要是利用圖論還有 Random Walk 來做配合.

Huey 一連串介紹了幾篇分類相關的論文,
像是最基本的分類的演算法以及用 FP-Tree 來加速分類的演算法.

八爪 (為了匿名所以才打八爪 )
則是在嚐試的尋找各種可以當作 Training Data 的資料.
主要就是各種格式的設計圖, 2D 3D 或是 各種程式所畫出來的.
不知究竟是否有順利找到合用的就是.

我則是報告了一篇關於 Text & Emotion 的論文.
主要就是看 Text 裡面有哪些關於 Emotion 的關鍵字, 之後利用公式來統計,
看 Text 中哪一種的 Emotion 的分數最高. 這篇論文還配合聲音, 因為單就 Text 準確率比較低.
之後則是看了一本 Virtual Human. 主要是講說如何的在電腦中建立出一個 Virtual Human.
這本書看了前面的5章, 我想接下去的跟我要做的就沒有太大關係所以就暫且擱著了.
另外還研究了 如何從 DVD 中抓取字幕檔案以及 3DMeNow 這個有趣的程式.

這學期很快的就過完了 ...
大家花了很多的時間在基礎的建設上,
希望大家待基本功夫醞釀完成, 就可以很快的把想要做的東西完成.



接著暑假來了 ...

星期一, 5月 22, 2006

Meeting 回顧

回顧一下寒假過後開學之後的 meeting.

開學之後, 主要就開始著手於專題方面的事情了.

對於專題, 確定要做關於情緒與文字方面的mining. 感覺起來還算滿有趣的. 另外, 討論了 Fast Algorithms for Mining Association Rules 這一篇論文.

開學幾週, 似乎就是步調慢慢的看著論文, 幾週之後才跟老師敲定meeting的時間. 另一方面, 國科會的申請也是來得非常的緊急. 雖然國科會的名額有限, 但是也趁著寫計畫書的機會, 重新的了解了自己將要研究的東西. 在國科會案子申請截止前, 記得就是在忙這件事情. 老師給每個專題生印了許多篇相關的論文, 而一些基礎的相關知識也要我們勤於查詢網路或是圖書館的資料. 所以要準備的資料其實是非常的多.

然而真正忙碌的期間, 就是在國科會申請的最後的那1.2個禮拜. 最後總算是趕出了一篇5.6頁的報告. 也對於計劃書的撰寫, 它的格式有初步的體會與了解. 儘管最後由於名額的關係, 我的報告並沒有申請, 但還是學到了許許多多的東西啦.

申請完後的幾週, 就繼續的討論 Fast Algorithms for Mining Association Rules 這篇論文. 這一篇論文由於之前已經閱讀過了, 所以老師採取問答的方式來進行, 讓還沒懂的同學可以藉由回答問題漸漸了解這篇論文; 對已經閱讀過的, 也可以藉由提問來發現更深入或是還沒完全通的問題.大概花了兩週把它結束. 一方面也加強我們對於閱讀方法的技巧. 老師還介紹了分類以及分類的方法. 基本上, 這個時候, 基礎的工作大致告一段落了. 我想, 我們好像也沒有時間再討論其他的論文了, 感覺時間過的很快, 很多事情很可惜.

接著, 我們就必須趕緊的把焦點放到各自的專題上了.