上一篇文章已完成初步的PLSR分析,接下來要進一步處理分析資料,直到資料為可用狀態為止。這裡不討論原理或是公式等專有名詞,只說明要把資料處理到何種程度

 

 


換個取樣較完整的檔案來繼續說明分析畫面的細節,畫面上需要查看的是左上、左下及右下3個圖表,畫面的顯示設定完全使用內定值

20140403-01  


左上的圖表可以看到每筆資料以藍色圓圈來表示,所有資料以中心為0的十字線分佈在周圍,離中心越遠的資料代表分析後偏差較大的資料。偏差較大的資料有很多原因,通常是取樣時造成的偏差或是樣本汙染或其他因素的偏差,在稍後進階處理時會理掉


另外取樣較完整的資料顯示時,應該是以中心為0的十字線為主呈近圓形分佈;若在這個畫面看到資料明顯分成幾團時,就表示取樣有問題,或是混到其他樣本資料。這時應先排除有問題的樣本資料,或是整個資料廢除重新取樣,之後再來進行進階處理

20140403-02  


左下的圖表可以看到每筆資料以藍色圓點來表示,這個圖表和上一篇文章中間PLSR分析參數設定提到的Num PCs:設定值有關,上一篇提到Num PCs:使用內定值20,所以這個圖表只會看到20個藍點。這個圖表表示分析資料的收斂度,預測值和實際值最接近的點,就是上一篇文章最後提到的Suggested Number of PCs:值,也就是實際要取出使用的值


這個圖表正常應該會呈現左邊最高往右邊降低的收斂資料,若看到的是右邊上揚或是忽高忽低的分佈的發散資料,通常是取樣不足或取樣有問題

20140403-03  


右下的圖表顯示的是實際值和預測值的分佈圖,藍色圓圈是實測值,紅色圓點是預測值。有紅、藍2條直線穿過圖表。進階分析的目的就是要讓那2條直線儘量疊合,也就是讓實際值和預測值儘量趨近;這個圖表也可以用來大致判斷這筆資料預測的誤差範圍,不過這樣不容易判斷,底下提到標記資料方法時會說明資料預測誤差範圍的判斷法

20140403-04  


這個圖表左上有個Predicted Y底下顯示一些統計學數據

20140403-07  


可以透過程式上方圖像工具列中最右邊Calibration或Validation工具(內定是全部按下),切換Predicted Y統計學數據和圖表的顯示狀態(要先選擇圖表,被選擇的圖表會顯現淺藍色框)

20140403-05    20140403-06  


切換後的圖表資料全部以藍色圓圈表示,取消Calibration顯示的是預測值的統計數據,取消Validation顯示的是實測值的統計數據

20140403-08  


切換後的Predicted Y底下顯示統計學數據以縱向排列,最上面的Elements:數值表示這份資料目前有多少樣本。隨著進階分析的進行這個數值會減少,根據經驗修正分析所排除的資料量,絕對不要大於原資料量的30%。排除的資料量超過30%以上時,所建立的檢量線(數據建模)會偏差很大不堪使用;所以在進階分析時要注意這個數值的變化

20140403-09  


在圖表上的隨意個資料點上按滑鼠左鍵,會跳出一個小方框顯示:number(資料點的樣本列編號)、name(資料點的樣本列名稱)、abscissa value(資料點的樣本實測值)、ordinate value(資料點的光譜預測值)

20140403-10  

 

 


下一步驟是要進行偏差值較大的資料標記,以便在做排除分析時排除那些資料,先點選左下圖表(圖表會顯現淺藍色框)

20140403-03  


在下拉式功能表Plot的Residuals選項

20140403-11  


按下後會跳出Residuals選項視窗

20140403-12  

 


資料標記的選項有很多,我所學的只用到其中2個,那2個選其中一個來應用即可

 


第一個標記方法在Residuals選項視窗的General頁面下的Variance per Sample選項,選完後按OK,選擇的圖表會切換成下圖

20140403-13  


要是覺得畫面太小不好標記,可在圖表畫面按滑鼠右鍵,從選單中點選Go To內的第一項,把圖表放大到整個畫面

20140403-14  

 

畫面上偏離底下0那條線最遠(上方)的資料就是偏差最大的資料,就是要標記的資料

20140403-15  


標記資料要用到程式上方圖像工具列中間的Mark With Rectangle工具

20140403-16  


標記的方式是先點選Mark With Rectangle工具,然後一一點選要排除的資料,或是按住滑鼠左鍵拉出一個方框一次框選,被選擇到的資料會出現黑色圓圈顯示

 


第二個標記方法在Residuals選項視窗的Outliers頁面,使用預設值不用修改直接按OK

20140403-17  

 

選擇的圖表會切換成下圖

20140403-18  


下方圖表顯示分析資料的偏差量分佈,離中央那條0線越遠的資料偏差越大,同時可以據以判斷這筆資料預測的誤差範圍。依據分析經驗,在這張圖表中的資料分佈顯示,預測值在12到14.5之間偏差正負2的準確率約有90%。實際應用當然不可能容許這麼大的誤差,所以才要標記偏差較大的資料做進一步分析

20140403-19  


上方圖表是實際要標記資料的畫面,畫面上離左下角越遠的資料偏差越大。不過標記時不標記右邊資料,只標記上方偏差較大的資料。標記資料前要先點選上方圖表(圖表會顯現淺藍色框)

20140403-20  


標記資料同樣用到程式上方圖像工具列中間的Mark With Rectangle工具

20140403-16  


標記的方式是先點選Mark With Rectangle工具,然後一一點選要排除的資料,或是按住滑鼠左鍵拉出一個方框一次框選,被選擇到的資料會出現黑色圓圈顯示

20140403-21  


要取消標記可以用程式上方圖像工具列中間的Unmark All工具,點擊後即可取消所有標記

20140403-22  

 

 


在用上述2個方法標記好資料後,就要做進一步分析。在下拉式功能表Task的Recalculate WithoutMarked...選項

20140403-23  


按下後會跳出Regerssion選項視窗,其中Keep Out of Calculation:會自動列出被標記的資料編號

20140403-24  


這裡不修改參數直接按OK,會跳出分析進度視窗畫面,和上一篇文章不同的是這次的分析已排除被標記的資料

20140403-25  


分析完成後,分析進度視窗畫面底下Abort字樣會變更為View字樣,點選View會顯示分析結果

20140403-26  


接下來是重覆以上標記資料,排除被標記資料分析的動作。看資料的多寡及每次標記的數量,通常會重覆幾十次以上。我是比較傾向每次標記少數資料,多重覆分析幾次,這樣的偏差較少

 

 


以下同一個檔案圖表已經過多次重覆分析,排除的資料量佔原資料量的25%左右

20140403-27  


用下拉式功能表Plot的Residuals選項視窗的Outliers頁面,切換到另一個圖表顯示。從下方圖表中的資料分佈顯示,預測值在12到14.5之間偏差正負1的準確率約有95%左右,誤差已大幅減少;加上被排除的資料量來推估,這筆分析完成的資料整體預測能力大約是正負1以內範圍準確率72%左右,而在12到14.5之間範圍的預測能力大約是正負1以內範圍準確率90%左右

20140403-28  

 

 


要記得每次分析完後存檔,以免出現無法存檔的狀況時做白工。若真的在分析完後跳出記憶體錯誤訊息不給存檔的狀況,還有補救的方法,就是把分析後的圖表資料轉回數值格式的Data資料,再把數值格式的Data資料存檔。之後關掉程式再重新啟動程式,叫回儲存的檔案就可以繼續分析處理。惟一不便的是要重設PLSR分析參數


把分析後的圖表資料轉回數值格式Data資料的方法:先點選左上或右下圖表(圖表會顯現淺藍色框),用程式上方圖像工具列中間的Reverse Marking工具

20140403-29  


點擊後會自動全選所有資料,所有資料會出現黑色圓圈

20140403-30  


再來點選下拉式功能表Task的Extract Data From Marked...選項

20140403-31  

 

圖表上被圈選的資料就會轉換成數值格式Data資料,接著就可以將數值格式Data資料存檔

20140403-32  

 

 


下一篇文章會說明如何取出可用的分析資料也就是檢量線(數據建模)的方法,並說明如何用檢量線(數據建模)去反推預測原樣本光譜資料

, , , ,

未出師的小工程師 發表在 痞客邦 PIXNET 留言(0) 人氣()