之前的文章只說明軟體操作方法,這篇文章要探討的是樣本取樣問題,取樣不良的資料再多也分析不出可用的數據


我做最多取樣數量的是水果,以下都以水果取樣時的圖表來解說

 

 


這是某水果我做的取樣樣本實測糖度範圍的數量分佈Excel圖表,總樣本數量約7500個,取樣精度是0.1度。根據經驗樣本數量超過總數量標準差以上的樣本,在PLSR分析後的預測準確度最高,比總數量標準差少太多的樣本預測準確度最低,以這圖表來說我估計預測準確範圍大約是落在8.2到14.2之間

20140409-01  


實際以The Unscrambler軟體做初步的PLSR分析(下圖),整體的預測範圍可以看出8.2到14.2之間是資料最密集的,也是進階PLSR分析後最準確的範圍

20140409-02  


那預測範圍以外的部分要如何提高準確度?標準的做法是針對缺少的部分增加取樣樣本,但這方法很難,因為範圍外的樣本少有,可能過了很久仍達不到需要數量,取樣資料只能慢慢累積


另類思考是以現有資料擴展預測範圍,參考專家的意見後,把樣本數量超過總數量算數平均以上的資料砍除部分,降低總數量標準差之後再分析。根據上面Excel圖表來估計,砍除資料降低標準差對8.2以下的範圍幫助不大,因為8.2以下資料過少。14.2以上範圍則能得到改善,因為14.2以上的資料數量明顯比8.2以下多


砍除部分資料後再做初步的PLSR分析(下圖),整體的預測範圍可以看出已大約擴展成8.1到15.1之間,雖然擴展範圍不多但已有改善

20140409-03  

 

 


取樣要注意的問題不少,我是儘量以人為控制方式使取樣時樣本的條件達到一致。樣本條件偏差造成錯誤取樣的問題較多,也是我老闆最忽略不重視的部分,也因此我時常在奉指示取樣後又要重做。以下列舉幾個錯誤的水果取樣經驗

 


一、水果成熟度:根據日本方面的資料成熟度不同在水果內部成份的差異很大,這問題我也跟老闆提醒多次。而我老闆卻仍認為要低糖度的樣本用未熟的水果,要高糖度的樣本用熟到快爛的水果來取樣即可。實際按照老闆指示取樣如下圖,乍看之下似乎沒有問題,但仔細分析誤差卻很大

20140409-04  


換看另一張圖表更明顯(下圖),可以看到許多無效樣本資料分佈在有效樣本之外,偏差很大

20140409-07  


未熟的水果實際糖度值6.2,而預測值卻高達11.1。以正常的取樣經驗來說初步的PLSR分析後,準確範圍外的樣本誤差平均最多只到4度左右,這很明顯已是無效樣本

20140409-05  


熟到快爛的水果實際糖度值18.8,而預測值卻低到13.5。這個熟到快爛的水果果肉含水明顯偏高,這樣本也是無效樣本

20140409-06  


無效樣本太多的資料根本無法使用,最後只能全部放棄重來

 


二、水果溫度:溫度會影響到光譜數據,不同取樣日及取樣溫度取樣後如下圖,也是乍看之下似乎沒有問題

20140409-08  


換看另一張圖表(下圖),可以看到資料分成3團。中上方的是在室溫下放置12小時以上的水果,右下是水果攤放在外面有曬到太陽的水果,左下是水果攤從冰箱拿出來不到一小時的水果。如果是以室溫為取樣標準,下方那另外2團都是無效樣本

20140409-09  

 

 

三、水果品種:有些水果雖然名稱差不多,但以我的做法是當作不同的品種來處理。而我的老闆可不是這麼想,他認為名稱差不多就是同樣的。以牛蕃茄和聖女番茄為例,取樣資料混合分析後如下圖,6.5度以下是牛蕃茄,以上是聖女蕃茄,也是乍看之下似乎沒有問題

20140409-10  


換看另一張圖表(下圖),除了右上有少許偏差較大資料外,也是乍看之下似乎沒有問題

20140409-12  


把這些資料做進階PLSR分析後取出檢量線(數據建模),以檢量線(數據建模)去驗證反推光譜資料(下圖)。牛蕃茄的光譜資料預測值都比實際值高很多,而聖女蕃茄低糖度的預測值也偏高,只有聖女蕃茄高糖度的預測值較準確。用這個檢量線(數據建模)去實測結果也和驗證資料相符

20140409-11  

 


以上主要在強調取樣時樣本條件一致的重要性,有興趣做相關分析研究的務必注意這個問題

, , , ,

未出師的小工程師 發表在 痞客邦 PIXNET 留言(0) 人氣()