基于二項分布檢驗法的水質(zhì)達標(biāo)評價方法研究
中國污水處理工程網(wǎng) 時間:2017-4-3 8:37:03
污水處理技術(shù) | 匯聚全球環(huán)保力量,降低企業(yè)治污成本
1 引言
水質(zhì)達標(biāo)評價(Water Quality Compliance Assessment)是根據(jù)一定時段內(nèi)的水質(zhì)監(jiān)測數(shù)據(jù),評價水體狀態(tài)是否符合其功能對應(yīng)的水質(zhì)標(biāo)準(zhǔn)的決策過程,是流域水污染防治和水質(zhì)管理的重要科學(xué)依據(jù).區(qū)別于水質(zhì)評價研究中對水質(zhì)綜合指標(biāo)、時間序列趨勢、季節(jié)性特征等的關(guān)注,水質(zhì)達標(biāo)評價的關(guān)注點是水質(zhì)是否達標(biāo),并可以由此評估已有的流域治理措施效果、制定新的治理規(guī)劃(如TMDL).在流域水污染防治資金緊缺的條件下,準(zhǔn)確識別水體是否達標(biāo)至關(guān)重要:如果評價方法過于保守,會導(dǎo)致水生態(tài)系統(tǒng)健康受損;若評價方法過于嚴(yán)格,會導(dǎo)致水體過于保護,水體自凈能力無法得到有效利用及高的治理資金投入.科學(xué)合理的水質(zhì)達標(biāo)評價方法是進行水質(zhì)達標(biāo)評價的基礎(chǔ).我國地表水環(huán)境質(zhì)量評價采用單因子評價方法,對斷面時空監(jiān)測數(shù)據(jù)求算術(shù)平均值判斷其水質(zhì)類別,根據(jù)斷面水質(zhì)類別比例對流域水質(zhì)進行分級.美國清潔水法303(d)條款規(guī)定對受損水體實施TMDL計劃,EPA導(dǎo)則推薦使用監(jiān)測數(shù)據(jù)的90%分位數(shù)評價水體是否受損,即監(jiān)測數(shù)據(jù)的超標(biāo)個數(shù)不能超過10%.在歐盟,采用每年12個月監(jiān)測數(shù)據(jù)的算術(shù)平均值作為評價依據(jù),少數(shù)成員國將監(jiān)測數(shù)據(jù)的變異性考慮在內(nèi),給出統(tǒng)計置信區(qū)間.
水質(zhì)指標(biāo)監(jiān)測值存在不確定性已經(jīng)被廣泛地認(rèn)識和研究.我國水質(zhì)達標(biāo)評價方法未考慮水質(zhì)指標(biāo)的不確定性,美國和歐盟已經(jīng)將不確定性納入到水質(zhì)達標(biāo)評價中.水質(zhì)指標(biāo)的不確定性包括固有的變異性(如監(jiān)測數(shù)據(jù)的季節(jié)性差異)和可減小的不確定性(如測量誤差)2部分.通過合理選擇監(jiān)測斷面、監(jiān)測指標(biāo)以及質(zhì)量保證和質(zhì)量控制(QA/QC)可以減小不確定性,卻不能完全消除.忽視不確定性可能會帶來巨大的決策風(fēng)險,科學(xué)合理的水質(zhì)達標(biāo)評價方法必須能夠表征監(jiān)測數(shù)據(jù)的不確定性,將由水質(zhì)指標(biāo)不確定性帶來的決策風(fēng)險定量化,為決策提供有用信息.
在統(tǒng)計學(xué)視角下,將水質(zhì)指標(biāo)視為隨機變量,可有效地表征不確定性.水質(zhì)指標(biāo)具有時空分異性,在同一時間獲得空間所有點位的監(jiān)測數(shù)據(jù)或者在同一點位進行連續(xù)的監(jiān)測是不可能的,只能通過有限的監(jiān)測數(shù)據(jù)對水質(zhì)進行評價,即根據(jù)樣本數(shù)據(jù)估計總體特征.統(tǒng)計學(xué)假設(shè)檢驗方法已經(jīng)廣泛應(yīng)用于環(huán)境系統(tǒng)中,假設(shè)檢驗的2類錯誤可以定量表征水質(zhì)指標(biāo)的不確定性帶來的決策風(fēng)險.針對美國EPA提出的最大超標(biāo)率為10%,Smith等和McBride等認(rèn)為10%應(yīng)該指10%的時間,即總體分布的90%分位數(shù),并采用二項分布檢驗法(Binomial Test)進行了水質(zhì)達標(biāo)評價.該方法是一種針對二元數(shù)據(jù)的非參數(shù)方法,通過假設(shè)檢驗給出在一定允許超標(biāo)率和樣本容量時的最大超標(biāo)個數(shù),并與實際監(jiān)測得到的超標(biāo)個數(shù)對比,評價水質(zhì)是否超標(biāo).盡管研究者指出二項分布檢驗法存在信息損失的問題,并提出了參數(shù)檢驗方法,然而McBride的研究表明,在大部分情況下,二項分布檢驗法由于不受限于原始數(shù)據(jù)的分布而更具有魯棒性.本文以基于二項分布檢驗法的水質(zhì)達標(biāo)評價方法為基礎(chǔ),分析其決策過程及決策風(fēng)險的定量表征,并以海河流域為例,對比不同評價方法的差異性,分析其適用性和靈活性.
2 研究方法
2.1 基于二項分布檢驗法的水質(zhì)達標(biāo)評價方法
在二項分布檢驗法之前,需將監(jiān)測數(shù)據(jù)轉(zhuǎn)化為0~1變量,方法為:對于某一特定監(jiān)測數(shù)據(jù)x,將其與水質(zhì)標(biāo)準(zhǔn)θ對比,對比后的結(jié)果記為y,如果x>θ,即超過水質(zhì)標(biāo)準(zhǔn),記y=1;如果x≤θ,記y=0.令p(0
θ的概率,則y服從成功概率為p的0~1分布,其分布律為:
![](/jishu/UploadFiles_9416/201704/20170403091836690.jpg)
假設(shè)收集到的N個監(jiān)測數(shù)據(jù)用于評價水質(zhì)是否達標(biāo),記隨機變量X=x1,x2,...,xN,將X中的每個元素轉(zhuǎn)化為0~1變量,便得到隨機變量Y=y1,y2,...,yN,則Y服從參數(shù)為(N,p)的二項分布,記為Y~B(N,p).令n為Y成功的總次數(shù),即為N個樣品中超標(biāo)總個數(shù),其分布律為:
![](/jishu/UploadFiles_9416/201704/20170403091837461.jpg)
二項分布的分布律表征了水質(zhì)變量轉(zhuǎn)化為二元數(shù)據(jù)后超標(biāo)總個數(shù)不確定性.欲檢驗總體分布的90%分位數(shù)是否達標(biāo),即超標(biāo)率是否小于10%,可令原假設(shè)為水質(zhì)達標(biāo),即H0:p≤0.1,備擇假設(shè)為H1:p>0.1.原假設(shè)為真時,可得p=0.1時超標(biāo)個數(shù)n的分布函數(shù)F;實際監(jiān)測數(shù)據(jù)中超標(biāo)個數(shù)nc不應(yīng)太大,在給定的顯著性水平α下,應(yīng)有F(nc)=P(n≤nc)≤1-α;否則拒絕原假設(shè),判定為水質(zhì)超標(biāo).
2.2 棄真錯誤和取偽錯誤
在經(jīng)典統(tǒng)計學(xué)的假設(shè)檢驗過程中,不可避免地要討論2類錯誤:棄真錯誤和取偽錯誤.在水質(zhì)達標(biāo)評價中,這2類錯誤是由于水質(zhì)變量的不確定性導(dǎo)致的.棄真錯誤為當(dāng)原假設(shè)為真時,放棄原假設(shè)而犯的錯誤(falsely inferring a breach of standard),棄真錯誤的概率記為α;取偽錯誤為當(dāng)原假設(shè)為假時,相信原假設(shè)而犯的錯誤(falsely inferring compliance),棄偽錯誤的概率記為β.對于二項分布,$\alpha =P\left( n>{{n}_{s}} \right)=\sum\limits_{j={{n}_{s}}+1}^{N}{C_{N}^{j}{{P}^{j}}}{{\left( 1-P \right)}^{N-j}}$.計算β時,需要給定效應(yīng)值η(備擇假設(shè)和原假設(shè)之間的差距),二項分布檢驗法一般取η=0.15,即p′=p+η=0.25來計算β,計算公式為β=G-1(ns),其中G(n)=$\sum\limits_{k=1}^{N}{C_{N}^{k}{{P}^{'k}}}{{\left( 1-P' \right)}^{N-k}}$,為成功概率為p′的二項分布的分布函數(shù),G-1(n)為G(n)的反函數(shù).
按照上述α和β的計算公式,可以得到N一定時,以不同的ns(0≤ns≤N)作為決策準(zhǔn)則(即nc>ns判定為超標(biāo),nc≤ns判定為達標(biāo))時,α和β的變化情況.由圖 1可知N一定時,對于特定的ns存在唯一的(α,β)組合;α隨ns減小,β隨ns增加.圖中豎直虛線假設(shè)變量服從對稱分布,算術(shù)平均值等于50%分位數(shù),則平均值法等價于最大允許超標(biāo)率為50%.圖中豎直實線代表采用10%超標(biāo)樣品數(shù)目(以下稱為“超標(biāo)比例法”)得到的ns,當(dāng)N=12時,ns=1,α=0.341;當(dāng)N=50時,ns=5,α=0.384.可見對于相同樣本容量,平均值法棄偽錯誤的概率很大,超標(biāo)比例法棄真錯誤的概率較大,而二項分布檢驗法則可根據(jù)決策者需要選擇不同的(α,β)組合.相對于選擇特定的顯著性水平值做決策,(α,β)組合能量化決策準(zhǔn)則的風(fēng)險,為決策者提供更大的決策空間.α和β隨N增加均有減小的總體趨勢,參見Smith等.
![](/jishu/UploadFiles_9416/201704/20170403091838390.jpg)
圖 1N=12(a)和50(b)時2類錯誤概率隨最大允許超標(biāo)個數(shù)的變化
2.3 決策過程
基于二項分布檢驗法的水質(zhì)達標(biāo)評價的決策過程包括2個環(huán)節(jié):首先確定ns,然后根據(jù)監(jiān)測樣品的超標(biāo)個數(shù)nc判斷水質(zhì)是否達標(biāo).一般而言,決策過程應(yīng)該使得α和β最小.在N一定時,由于α、β隨ns單調(diào)性相反(圖 1),對于特定的ns不能同時使α和β最小.作為決策者,在選擇ns時:一方面,需要根據(jù)風(fēng)險偏好和科學(xué)判斷,選擇最大允許超標(biāo)率p;另一方面,需要權(quán)衡各相關(guān)方的利益,如:作為受體人群和生態(tài)系統(tǒng)的及作為治理投資者的政府或企業(yè).在同等條件下,ns隨著p的增大而不嚴(yán)格單調(diào)遞增;在p和N一定時,根據(jù)決策者的利益權(quán)衡,可以得到不同的ns.
下面介紹3種典型的(α,β)組合選擇策略:①保證α在一定的低水平,例如α≤0.05,使得β最小;②保證β在一定的低水平,例如β≤0.05,使得α最小;③控制α≈β,即minα-β.圖 2給出了當(dāng)p=0.1,N為4~100時,這3種策略得到的最大允許超標(biāo)個數(shù)ns和最大允許超標(biāo)率η=nsN(散點圖,連續(xù)線為點過于密集的結(jié)果).可見當(dāng)N較小時,控制α≤0.05得到的ns最大,控制β≤0.05得到的ns最小,且當(dāng)N≤10時,無論如何選擇ns均不能使β≤0.05;隨著N變大,控制α≤0.05得到的ns最小,控制β≤0.05得到的ns最大;策略③的結(jié)果介于①和②之間.總體上,控制α≤0.05得到的η呈遞減趨勢,由于假設(shè)檢驗是p=0.1時二項分布的95%分位數(shù),因此η恒大于0.1(圖 2d虛線);控制β≤0.05得到的η呈遞增趨勢,由于假設(shè)檢驗是p=0.25時二項分布的5%分位數(shù),因此η恒小于0.25(圖 2e虛線).綜上,基于二項分布檢驗法的水質(zhì)達標(biāo)評價決策過程可表示為圖 3.決策者可以根據(jù)風(fēng)險偏好和利益權(quán)衡,選擇p值和(α,β)組合,進而確定N一定時的ns,結(jié)合水質(zhì)監(jiān)測數(shù)據(jù)中的實際超標(biāo)個數(shù)nc,對水體的達標(biāo)狀況進行判斷;通過p和(α,β)可將決策的各種風(fēng)險定量化.
圖 2(Fig. 2)
![](/jishu/UploadFiles_9416/201704/20170403091839757.jpg)
圖 2最大允許超標(biāo)個數(shù)和最大允許超標(biāo)率隨樣本容量的變化
![](/jishu/UploadFiles_9416/201704/20170403091840880.jpg)
圖 3基于二項分布檢驗法的水質(zhì)達標(biāo)評價決策過程
3 案例研究(Case study)3.1 研究對象和方法
選擇海河流域的CODMn作為達標(biāo)評價的對象,數(shù)據(jù)來源為環(huán)保部網(wǎng)站,收集2014年7月22日-2015年7月14日的周監(jiān)測數(shù)據(jù),共有北京密云古北口(51)、北京門頭溝沿河城(51)、天津三岔口(51)、天津果河橋(51)、河北張家口八號橋(45)、河北石家莊崗南水庫(51)、山東聊城秤鉤灣(42)等7個監(jiān)測斷面,括號中為不同監(jiān)測斷面的有效監(jiān)測樣品數(shù).
當(dāng)N=42、45、51時,采用平均值法、二項分布檢驗法的3種策略、超標(biāo)比例法確定α、β、ns(對于平均值法,求各個樣本中大于平均值的樣品個數(shù),作為平均值法的ns),對比監(jiān)測數(shù)據(jù)與地表水環(huán)境質(zhì)量標(biāo)準(zhǔn)中各水質(zhì)類別的濃度限值θi(i=1,2,...,5),得到超過θi的樣品個數(shù)nci,水質(zhì)類別判定遵循如下過程:當(dāng)i=1時,若nc1≤ns則水質(zhì)類別判定為I類;當(dāng)i=5時,若nc5>ns則判定為劣V類;若nci≤ns 3.2 水質(zhì)評價結(jié)果 各種方法對應(yīng)的α、β、ns結(jié)果見表 1,各種方法的嚴(yán)格程度為:超標(biāo)比例法>B(2)>B(3)>B(1)>平均值法(“a>b”表示a嚴(yán)格于b,B(i)表示二項分布檢驗法的第i種策略);采用平均值法β接近于1,超標(biāo)比例法得到的α很大(>0.4),二項分布檢驗法的3種策略得到的2類錯誤之和小于0.3,平均在0.2左右,且均處于相對較低水平.水質(zhì)評價結(jié)果見表 2,在7個斷面中,石家莊崗南水庫水質(zhì)最好,聊城秤鉤灣水質(zhì)最差;石家莊崗南水庫和門頭溝沿河城2個斷面采用各種方法的評價結(jié)果相同,另外5個斷面有差異.根據(jù)斷面的水質(zhì)類別得到的流域分級結(jié)果也有差異.斷面水質(zhì)類別的評價結(jié)果,除了與評價方法的嚴(yán)格程度有關(guān),也與水質(zhì)監(jiān)測數(shù)據(jù)有關(guān).采用相對嚴(yán)格方法評價達標(biāo)的斷面,在不嚴(yán)格方法下自然達標(biāo);采用相對不嚴(yán)格方法評價達標(biāo)的斷面,在嚴(yán)格的方法下不一定達標(biāo),例如密云古北口采用平均值法評價為I類水質(zhì),而采用其它方法評價時卻為II類水質(zhì).總體上看,評價結(jié)果符合嚴(yán)格方法得到的水質(zhì)類別較低的規(guī)律. 表 1 3種樣本容量對應(yīng)的各種評價方法的2類錯誤概率和最大允許超標(biāo)個數(shù) 表 2 海河流域CODMn達標(biāo)評價結(jié)果 綜合表 1和表 2,對于二項分布檢驗法的3種方法,控制β≤0.05有利于保護受體的利益,對水體水質(zhì)要求嚴(yán)格,流域分級為“輕度污染”;控制α≤0.05有利于減少治理投資,對流域分級為“良好”;二項檢驗的3種策略的評價結(jié)果對比,說明在采用二項分布檢驗法進行水質(zhì)達標(biāo)評價時,即使對于完全相同的水質(zhì)監(jiān)測數(shù)據(jù),決策時傾向于不同利益群體,可能得出不同的水質(zhì)達標(biāo)評價結(jié)果.二項分布檢驗法為水質(zhì)達標(biāo)評價的決策提供了較為廣闊的決策空間. 案例研究中,取最大超標(biāo)率p=0.1,采用二項分布檢驗法的3種典型策略進行水質(zhì)達標(biāo)評價;在實踐中,決策過程有更大的靈活性:對于p,決策者可以根據(jù)風(fēng)險偏好選擇不同值.對于策略①和②,決策可設(shè)定不同的錯誤概率限值,例如令α≤0.1使得β最小,再比如,可同時限定α,β的最大值,例如令α≤0.2同時β≤0.1,即可得到多組(α,β)組合;對于策略③,可根據(jù)需要設(shè)定限制條件,例如出于保護受體的目的令α<β,或者給定最大可接受的差值δ,令α-β≤δ,亦可得到不同的(α,β)組合.對得到的多組(α,β)組合,決策者可結(jié)合其它約束條件進行優(yōu)選確定最終的ns. 4 討論 4.1 先驗知識與假設(shè)檢驗 研究中采用的原假設(shè)是水質(zhì)達標(biāo),α代表水質(zhì)達標(biāo)而判定為不達標(biāo)的概率,β代表水質(zhì)未達標(biāo)而判定為達標(biāo)的概率,二項分布檢驗法的策略①實質(zhì)上是求成功概率為p的二項分布的95%分位數(shù);Gibbons指出如果有很強的先驗知識認(rèn)為水體超標(biāo),則假設(shè)檢驗的原假設(shè)應(yīng)為水質(zhì)未達標(biāo),此時α和β的含義互換,而二項分布檢驗法的策略①變?yōu)榍蟪晒Ω怕蕿閜的二項分布的5%分位數(shù).由計算可得,當(dāng)先驗知識認(rèn)為水質(zhì)超標(biāo)時,得到的ns較小.如當(dāng)效應(yīng)值為0.15,樣本容量N=50,最大超標(biāo)率p=0.25時,按策略①,原假設(shè)為水質(zhì)達標(biāo)時ns=18,原假設(shè)為水質(zhì)超標(biāo)時ns=7,則對于超標(biāo)個數(shù)在8~18的樣本按照2種原假設(shè)得到的評價結(jié)果不同,例如當(dāng)nc=10時,若原假設(shè)為水質(zhì)達標(biāo),則判定為達標(biāo),若原假設(shè)為水質(zhì)超標(biāo),則判定為超標(biāo).可見,水質(zhì)現(xiàn)狀的先驗知識對評價結(jié)果具有顯著影響,在先驗知識充足時,水質(zhì)達標(biāo)評價具有“寬進嚴(yán)出”的規(guī)律,即將先驗認(rèn)為達標(biāo)的水體列為不達標(biāo)狀態(tài)時對超標(biāo)個數(shù)的要求較為保守,而將先驗認(rèn)為未達標(biāo)水體列為達標(biāo)狀態(tài)時對超標(biāo)個數(shù)的要求較為嚴(yán)格.β值與效應(yīng)值的選取有關(guān),本文參照文獻做法取效應(yīng)值為0.15,即備擇假設(shè)的p=0.25.在同等條件下,盡管根據(jù)不同效應(yīng)值可以得到不同的β,但是其隨N和ns的變化規(guī)律一致.假設(shè)檢驗的效果隨樣本容量的增加而增大,對海河流域的研究顯示,采用二項分布檢驗法可以控制各個斷面的總錯誤概率平均值在0.2左右,評價結(jié)果具有很高的可信度. 4.2 最大允許超標(biāo)概率的選擇 對于研究中最大超標(biāo)率設(shè)定的目的,研究者給出了不同的解釋:Smith等、McBride等認(rèn)為水質(zhì)變量不確定性造成的某次監(jiān)測數(shù)據(jù)超標(biāo)是難以避免的,因此對全部水質(zhì)監(jiān)測數(shù)據(jù)給出一個可以接受的超標(biāo)率(10%)是合理的;此時10%可理解為“容忍度”.Gibbons則認(rèn)為對90%分位數(shù)進行假設(shè)檢驗是為了保證總體的均值小于標(biāo)準(zhǔn)值;此時,樣本均值與90%分位數(shù)之間的差異可理解為“安全因子”.Smith等針對的是一類分位數(shù)標(biāo)準(zhǔn)(percentile-based standards),而Gibbons針對的則是平均值標(biāo)準(zhǔn),平均值代表流域水質(zhì)變量波動性的平均水平,與室內(nèi)實驗或野外試驗的穩(wěn)定濃度相對應(yīng).本文建議,在使用二項分布檢驗法進行水質(zhì)達標(biāo)評價時,需要首先區(qū)分評價變量的標(biāo)準(zhǔn)類型,如果是分位數(shù)標(biāo)準(zhǔn),則根據(jù)要求選擇較小的p值(例如0.1)是合理的;如果是平均值標(biāo)準(zhǔn),過大的安全因子會導(dǎo)致水質(zhì)目標(biāo)難以實現(xiàn),需要選擇較大的p值(例如0.25). 結(jié)合4.1和4.2小節(jié),最大允許超標(biāo)概率和假設(shè)檢驗的2類錯誤率均是由于水質(zhì)監(jiān)測數(shù)據(jù)的不確定性導(dǎo)致的.最大允許超標(biāo)概率體現(xiàn)了由于監(jiān)測數(shù)據(jù)波動性,而對其采用的“容忍度”或者“安全因子”,決策者對最大允許超標(biāo)概率的選擇體現(xiàn)了風(fēng)險偏好;假設(shè)檢驗的2類錯誤體現(xiàn)了由于水質(zhì)變量的不確定性,使用樣本估計總體特征的可信程度,決策者對2類錯誤的選擇體現(xiàn)了對不同群體的利益權(quán)衡.通過這3個參數(shù),基于二項分布檢驗法的水質(zhì)達標(biāo)評價方法將水質(zhì)監(jiān)測數(shù)據(jù)的不確定性對決策過程的影響定量化,對決策的各種風(fēng)險進行了定量表征,使得決策更具科學(xué)性.具體參見污水寶商城資料或http://www.yiban123.com更多相關(guān)技術(shù)文檔。 5 結(jié)論 1) 水質(zhì)變量存在不確定性,平均值法忽視了水質(zhì)變量的不確定性,會造成很大的取偽錯誤概率,而超標(biāo)比例法會導(dǎo)致很大的棄真錯誤概率;基于二項分布檢驗法的水質(zhì)達標(biāo)評價方法可以將由水質(zhì)變量的不確定性導(dǎo)致的決策風(fēng)險定量化,為決策者提供科學(xué)依據(jù). 2) 本文在基于二項檢驗的水質(zhì)達標(biāo)評價方法的基礎(chǔ)上,納入決策者的風(fēng)險偏好和對利益的權(quán)衡,提出了水質(zhì)達標(biāo)評價的決策框架.二項分布檢驗法對原始數(shù)據(jù)的分布沒有要求,是一種方便快捷的非參數(shù)方法.本文提出的決策框架,可為決策者提供較大的決策空間,決策者可以根據(jù)風(fēng)險偏好和利益權(quán)衡選擇或限制最大超標(biāo)率、效應(yīng)值、棄真錯誤概率和取偽錯誤概率組合,確定最大允許超標(biāo)個數(shù),進行水質(zhì)達標(biāo)評價. 3) 對海河流域的水質(zhì)評價結(jié)果表明,采用基于二項分布檢驗法的水質(zhì)達標(biāo)評價方法,相對于平均值法和超標(biāo)比例法,其評價結(jié)果具有很高的可信度,不同的利益權(quán)衡會得到不同的評價結(jié)果,驗證了二項分布檢驗法的適用性和靈活性.