【SupAgro法國國家釀酒課程】第一學期-開放統計軟體R

SupAgro的葡萄樹與葡萄酒碩士課程(Master Vigne et Vin),第一個學期2014/09/01-2015/01/16,每週2-6個小時的統計課程,共計60個小時的課程時數。除了講解線性回歸、Anova、PCM(主要成分分析)、ACM統計方法的原理和應用之外,我們也在課堂上學習使用免費統計軟體R 作為工具,以達到快速處理數據和輸出分析圖表的目的。

在2015年一月底,我們必須交出一個小報告;每組1-3個人,我們自己設定題目,上網找數據或是自己動手實驗收集數據,並使用R 軟體結合已經學過的統計方法做分析處理。

R 軟體的特色就是需要以”程式語言”的方式輸入指令,這樣的操作方式,讓我一開始就對R產生極大的排斥,不小心打錯一個字母,整個指令就無法進行。當我開始準備寫報告的時候,上網看了很多資料,發現,就因為這個軟體是用程式語法驅動,所以也因此有了更大的可能性。

R 軟體簡介

R 軟體是國外一群熱心且專業的統計與資訊專業學者、志工共同努力發展的一套免費統計與科學計算軟體。R 軟體不僅具有眾多經常更新的統計分析模組,而且具有完整的的程式語言功能、強大的繪圖功能,以及預設雙倍精確度的特質,幾乎可以應用在各式各樣的科學分析任務。國外一些理工科系的專業科目,也已經將 R 軟體的使用技能當作是科目的先修必要條件。

近年來,隨着新的數據分析方法在生態學和環境科學研究中的迅速發展和大數據時代的來臨,R語言統計軟件以其靈活、開放、易於掌握、免費等諸多優點,在生態科學和環境科學研究領域迅速傳播並贏得廣大研究者的青睞。

R 軟體適用於多個領域:電腦、機器學習、資訊、數學、金融、管理、運籌、統計;生態學、環 境科學及其他相關領域(例如海洋學、分子生態學、農學和土壤科學)以及相關科所學生;也能幫助市場行銷、金融、財務、人力資源管理人員及產品經理解決實際問題;或從事諮詢、研究、分析產業的人士及各級管理人提升專業水準。


我的小組報告-15國葡萄酒進出口比較(PCA,主要成分分析法)

 
我和另外兩位同學,收集了15個國家、10年的葡萄酒進口、出口、產量、消費量和每人每年平均消費量數據,以PCA做分析。很明顯的,我們可以看到法國、義大利和西班牙,同屬出口量、生產量大的國家;而德國、美國和英國被歸為一類,為進口量大的國家。

分析數據來源
OIV (Organisation Internationale of Vine and Wine,國際葡萄、葡萄酒組織)
OIV是國際葡萄酒業的權威機構,於2001年成立。OIV前身為1924年在巴黎所成立的,那時只有8個成員國,也僅限於歐洲國家。OIV承襲了International Vine and Wine Office,目前的OIV擴增為46個成員國,影響力遍及全世界。主要任務是協辦各成員國之間的葡萄酒貿易、討論科學研究成果、制定符合國際葡萄酒發展潮流的技術標準等。

OIV免費數據提取網址:http://www.oiv.int/oiv/info/enstatoivextracts2?lang=en

報告所使用的R軟體程式碼
require(FactoMineR) → 安裝套件
don 載入excel整理好的數據(.csv檔)
don$Annee 將年份的性質定義為質量而非數量
donm >去掉年份的欄位,年份不參與統計分析
res.pca 得出PCA的圖表
plotellipses(res.pca,mean=F) → 將國家以不同顏色作區別

圖1:我們所收集的資料,以exel存成csv.檔案,供R軟體讀取。

圖2:進口量、出口量、生產量、消費量、每人每年平均消費量的象限表。
其中,每人每年平均消費量,在此圖中不能被解釋。

圖3:15個國家各成聚落,被散佈在四個象限中,與圖2相對應。
法國、義大利和西班牙在同個象限;德國、美國和英國在同個象限。

圖4:以色彩區分15個國家。


葡萄酒盲品分析(PCA分析法)

 
葡萄酒盲品的數據分析,常以PCA分析法。

例子:
同一款酒,以不同材質的軟木塞和旋轉蓋封閉,在相同情況下儲存一年,利用盲品的判定軟木塞和旋轉蓋對酒的影響。如何在眾多數據中,找到主要被影響的因子(單寧、酒精度、酸度、果香、花香、平衡度、複雜度…等等)?

PCA在這方面的科學研究,便是一個非常好的工具。

以下為我們上課的例子,29個評審,品評4瓶不同葡萄酒的分析圖:

圖5:每瓶酒被不同評審所評分的分佈。

圖6:單寧、酒精度、酸度、果香、花香、平衡度、複雜度的座標軸分佈,可與圖5相對應。


主成分分析(Principal components analysis,PCA)簡介

 
變數一多,就可能發生某些變數間的相依性,或是某些變數的影響程度非常微小,但在一般的應用上,往往因為人為的直覺判斷,造成挑選出過多的變數。多變量分析提供許多工具,試圖化繁為簡,降低變數的個數,並能抽離出真正的核心資訊,其中「主要成分分析」極具代表性。

參考資料:主成分分析的原理

關於R 軟體的網站

關於R 軟體的免費電子書

關於R 軟體的中文書籍(博客來網路書店)

  1. R軟體:應用統計方法 修訂版 附光碟1片 出版日期:2014-01-01
  2. R 錦囊妙計 出版日期:2014-01-24
  3. 實用R程式設計 出版日期:2014-06-30
  4. R財經計量入門手冊 出版日期:2012-05-24
  5. 利用R語言打通大數據的經脈 出版日期:2014-12-26
  6. 追蹤資料分析:原理與R程式實務 出版日期:2014-07-11
  7. 數量生態學–R語言的應用 出版日期:2014/05/01
  8. R語言與數據挖掘最佳實踐和經典案例 出版日期:2014-09-01
  9. R語言統計入門(第2版) 出版日期:2014-06-01
  10. 環境與生態統計︰R語言的應用 出版日期:2011/07/01
  11. R語言與商業智能 出版日期:2014/01/01

免費線上課程

可汗学院公开课:统计学
MOOC法國的免費線上課程:R軟體(法語)

34847 Total Views 1 Views Today
Émilie

Émilie

Émilie(艾蜜麗),來自板橋。因為葡萄酒的有趣多元,在2011年到法國便一頭栽進葡萄酒的世界。從法國蒙比利埃 農業工程師學校Montpellier SupAgro雙學位畢業(法國國家釀酒師文憑DNO+葡萄與葡萄酒碩士Master Vigne et vin)。目前正在法國的職場努力中。最喜歡的活動是攀岩、健行。

You may also like...

Leave a Reply

Your email address will not be published.

*

error: Content is protected !!