上一篇已提過The Unscrambler軟體數據處理的大概方法,現在要說明如何進行PLSR分析


進行分析前要準備2份資料:一份是樣本的光譜資料,這光譜資料是已處理過的資料,處理的方法有很多種,依實際需求選用即可。另一份是樣本的實測資料,實測資料要依所要檢測的項目來準備,以要檢測水果糖度來舉例,實測資料就是指水果糖度。當然樣本實測資料和光譜資料必需是一對一的關係,在此不討論樣本資料的有效性,後續的文章再來探討這個問題

 

 


首先分別把實測資料和光譜資料的數據剪貼到The Unscrambler的表單上,習慣上我是都把實測資料貼在光譜資料的最下方。因為Excel檔案格式的一些限制,自動儲存的光譜資料Excel檔案是以每一欄為一個樣本。以範例檔案(下圖)來看,每個光譜資料處理後的長度是920筆數據,第921筆數據位置我貼上實測數據

20140331-01  


在The Unscrambler軟體中是以列來分隔每個樣本,和貼上的Excel檔案資料以欄來分隔不同。因此使用功能表Modify的Transform內的Transpose選項,將整個表單資料轉換方向,改變成以列來分隔每個樣本(下圖)

20140331-02  

 

 


接下來要進行PLSR分析的相關參數設定,在功能表Modify的最下方Edit Set...選項是用來設定分析參數

20140331-03  


按下後會跳出參數設定視窗,視窗畫面中Show sets of type:那一項會停在Variable Sets設定變量集的範圍;畫面右邊選項:Add...可以新增參數,Remove可以刪除選定的參數,Properties可以修改參數

20140331-04  

 


Variable Sets這畫面裡要設定2個參數,按下設定視窗右邊的Add...會在跳出另一個設定視窗;視窗最上面Name:項目可以設定參數名稱,這裡可以使用英數或中文,或是不設定直接使用內定名稱;中間Interval (valid range is 1 through 921)設定範圍是重點,指出可設定的有效範圍,括號後面的數字和你貼上的資料數量有關。在範例檔案中光譜資料長度是920筆數據加上實測數據共921筆數據,所以可設定的範圍才會是1到921

  

第一個參數設定光譜變量範圍,光譜資料長度是920筆,所以設定為1-920,設定完後按OK關閉視窗

20140331-05  


第二個參數設定分析後資料要趨向的目標,也就是實測數據。同樣按下設定視窗右邊的Add...會在跳出設定視窗,Interval (valid range is 1 through 921)那一項設定為實測數據的欄位編號,就是921,設定完後按OK關閉視窗

20140331-06  


Variable Sets變量集範圍設定好後應該如下圖顯示2個參數

20140331-07  

 


接著把參數設定視窗畫面中Show sets of type:那一項,切換到Sample Sets設定分析樣本的範圍;這一項也可以不設定,分析時就是使用預設值全部的樣本。若是希望把樣本分幾組個別分析,就可以在這裡設定分組範圍

20140331-08  


同樣按下設定視窗右邊的Add...會在跳出設定視窗,中間Interval (valid range is 1 through 728)指出可設定的有效範圍為1到728,這是因為範例檔案只有728個樣本。因為要分析全部的樣本,這裡就設定為1-728,設定完後按OK關閉視窗


另一個設定全部樣本範圍的方法是:在底下的Special intervals中點選All samples那一項,然後按Update。在Interval (valid range is 1 through 728)那一項就會自動填上1-728的數值,設定完後按OK關閉視窗

20140331-09  


Sample Sets設定分析樣本範圍設定好後應該如下圖顯示1個參數,然後就可以按底下的OK關閉參數設定視窗

20140331-10  

 

 


參數都設定好之後,接著正式進行PLSR分析。在功能表Task下點選Regression...那一項

20140331-11  

 

會先跳出分析參數的設定視窗。因為要進行PLSR分析,所以最上面的選項就使用內定的PLS1那一項

20140331-12  


在視窗中的Samples那一頁中,Sample Set:那一項可以直接使用內定值All Samples,也可以選擇在參數設定視窗中Sample Sets設定的參數

20140331-13  


在視窗中的X-variables那一頁中,Variable Set:那一項要選擇參數設定視窗中Variable Sets設定的第一個參數,設定為光譜變量範圍

20140331-14  


在視窗中的Y-variables那一頁中,Variable Set:那一項要選擇參數設定視窗中Variable Sets設定的第二個參數,設定為實測數據

20140331-15  


視窗中間Validation Method那邊,選擇Cross Validation那一項,使用交叉分析


視窗最底下Num PCs:使用內定的20即可;這一項數值在樣本太少時會自動縮減,在樣本很多時維持內定值20才不會計算太久

 


都設定完後按OK,會跳出分析進度視窗畫面。這畫面會跑多久要看資料的數量和電腦效能而定,以我電腦的效能跑完728筆樣本資料大約5分鐘,上千筆樣本資料跑個幾十分鐘很正常;在跑資料分析時可以按底下Abort,會跳出另一視窗詢問是否要中斷分析

20140331-16  


分析完成後,分析進度視窗畫面底下Abort字樣會變更為View字樣,點選View會顯示分析結果

20140331-17  


分析結果的視窗分成4個畫面,畫面代表什麼意義後面文章再說明

20140331-18  

 


到此先將分析結果存檔,存檔時會跳出存檔視窗,這時儲存的檔案格式是The Unscrambler特有的Result格式,檔名只支援英數字,以外文字不支援

20140331-19  


存檔視窗底下Information方框顯示分析結果的相關數據,往下捲動其中有Suggested Number of PCs:那一項,特別重要後面文章會另外說明

20140331-20  

 


要先存檔的原因是根據經驗:有時因為樣本太多電腦效能不足,存檔時會跳出記憶體錯誤的訊息不給存檔。但關掉軟體重新啟動分析資料後,又可以存檔。為了避免出現錯誤時之前的分析做白工,最好是每次修正分析完就存檔


分析到此還不算完成,因為分析後的資料仍未達到可使用的階段;下一篇文章會以更多樣本的檔案來說明進一步的分析資料處理

arrow
arrow

    未出師的小工程師 發表在 痞客邦 留言(0) 人氣()