Cumulative–reliability function (CRF) 概念介紹:
傳統測驗理論中,長度越長(題數越多)的測驗通常具備較佳之信度,包含再測信度及內在一致性。
然而測驗需要多長的題數才可達到理想(或可接受)的信度程度呢?這個問題可藉由CRF分析幫助回答。
CRF旨在模擬分析同一測驗在各個長度 (1%~100%) 下的信度。
例如Computerized Digit Vigilance Test (C-DVT) 是一持續性注意力測驗,包含120題判斷螢幕是否有呈現數字六,C-DVT主要分數為完成120題之總時間。
CRF應用於C-DVT之再測信度分析時,我們使用所有受測者完成第1~N (N = 1~120,即測驗長度1%~100%) 題的總完成時間,一一分析再測信度 (Pearson's r & ICC)。
分析完120次(測驗長度1、1~2、1~3、...、1~120)再測信度後,在使用測驗長度vs.信度指標繪製散布圖,即可瞭解信度隨著測驗長度增加之變化,如下圖。
應用目的/價值:
1. 發展短版測驗:若前幾%的測驗已可達到不錯的信度(如上圖60%時,再測信度二指標已接近 0.90),則後面題目可捨去以發展短版測驗,提昇評估效率。
2. 計算分數時排除前幾%之題目:受測者作答前幾%之題目時,可能因為對題目不夠熟悉或緊張等因素,導致其表現不穩定,進而影響測驗的信度(如上圖的前30%)。此時研究者可不採納前幾%題目之分數,以計算最後的測驗分數。
以上圖為例,C-DVT的主要分數可用「31%~100%的總完成時間」,而非原本的「全部測驗完成 (1%~100%) 總時間」。
綜合上述2項應用目的,我們建議採用「C-DVT之31%~60%的題目」組成短版C-DVT,以提升評估效率,並兼具測驗信度。
適用之測驗:
較適用任務相同但重複多題的認知心理測驗,如:C-DVT每題的任務都相同:判斷有沒有數字六。
若整份測驗題目雖多,但每題內容/任務不同(如生活品質問卷),則每題可提供獨特的訊息/資訊,故不宜用CRF捨去測驗前面或後面幾%之題目。
2018年2月9日 星期五
2017年9月18日 星期一
C-DVT及T-SDMT反應性資料探索
以下為C-DVT及T-SDMT可能發表之論文主題:
C-DVT
C-DVT
主題1:C-DVT之MID
結果:18位中風患者之自覺持續性注意力改變量為2-3分(最大改變量7分),這群患者之C-DVT前後測進步秒數為13.9秒(總完成時間),即C-DVT之MID=13.9秒。
Note:後續可延伸分析C-DVT短版之MID
主題2:C-DVT原版 VS. 短版 之反應性
結果:
|
原版
|
短版
(31st-60th percentile) |
全部樣本數 (N = 41)
|
|
|
Group level (SRM)
|
0.31
|
0.18
|
Individual level
(% of patients whose change score > MDC) |
34.1%
|
29.2%
|
前後測間隔天數≥14
(N = 27)
|
|
|
Group level (SRM)
|
0.57
|
0.51
|
Individual level
(% of patients whose change score > MDC) |
85.7%
|
71.4%
|
T-SDMT
主題1:T-SDMT之MID
結果:14位中風患者之自覺分配性注意力改變量為2-3分(最大改變量7分),這群患者之T-SDMT前後測進步之答對題數為4.3題,即T-SDMT(施測三次取平均)之MID=4.3題。
主題2:T-SDMT不同施測方式之反應性比較
結果:
|
施測一次
|
施測二次取平均
|
施測三次取平均
|
全部樣本數
(N = 44)
|
|
|
|
Group level (SRM)
|
0.58
|
0.67
|
0.69
|
Individual level
(% of patients whose change score > MDC) |
25.0%
|
20.5%
|
20.5%
|
前後測間隔天數≥14
(N = 31)
|
|
|
|
Group level (SRM)
|
0.45
|
0.52
|
0.55
|
Individual level
(% of patients whose change score > MDC) |
22.6%
|
16.1%
|
12.9%
|
解讀:施測二次取平均之反應性與施測三次取平均相仿,或許未來使用T-SDMT只要施測二次即可(須同時考量test-retest reliability之結果)。
Note:【施測二次取平均】及【施測三次取平均】之個體層級反應性可能低估。因【施測二次取平均】及【施測三次取平均】之個體層級反應性參照【施測一次】之MDC值,但【施測二次取平均】及【施測三次取平均】之MID應 <【施測一次】之MDC值。
2017年4月27日 星期四
Mazes統合分析
Mazes迷宮測驗為MCCB之子測驗。
我於PubMed檢索Mazes或MCCB驗證於schizophrenia患者之再測信度文獻,共查獲3篇(表一之前三篇)。加上我們的收案資料,共使用4篇文獻進行統合分析。
Mazes之再測信度統合分析結果顯示(表二):Mazes之再測信度係數 良好 (pooled ICC & Pearson's r = 0.80),但隨機測量誤差大 (pooled MDC% = 63.6%),且有微小至小的練習效應 (pooled SRM & Cohen's d = 0.26 & 0.18, respectively)。Mazes之SRM森林圖 (forest plot)呈現於圖一。
Note: ICC & Pearson's r的森林圖未附上於此,因二者的森林圖是呈現z值而非ICC & Pearson's r,使得森林圖之數值不易解讀。ICC & Pearson's r於統合分析時都須先轉換成常態z值,再用z值進行運算。
未來可找其它軟體或方法繪製呈現ICC & Pearson's r的森林圖
未來須檢索其它資料庫(如Embase, PsycINFO, and CINAHL),以確認Mazes之再測信度文獻是否有漏網之魚。
表一:Mazes應用於schizophrenia患者之再測信度文獻基本資料
表二:Mazes之再測信度
我於PubMed檢索Mazes或MCCB驗證於schizophrenia患者之再測信度文獻,共查獲3篇(表一之前三篇)。加上我們的收案資料,共使用4篇文獻進行統合分析。
Mazes之再測信度統合分析結果顯示(表二):Mazes之再測信度係數 良好 (pooled ICC & Pearson's r = 0.80),但隨機測量誤差大 (pooled MDC% = 63.6%),且有微小至小的練習效應 (pooled SRM & Cohen's d = 0.26 & 0.18, respectively)。Mazes之SRM森林圖 (forest plot)呈現於圖一。
Note: ICC & Pearson's r的森林圖未附上於此,因二者的森林圖是呈現z值而非ICC & Pearson's r,使得森林圖之數值不易解讀。ICC & Pearson's r於統合分析時都須先轉換成常態z值,再用z值進行運算。
未來可找其它軟體或方法繪製呈現ICC & Pearson's r的森林圖
未來須檢索其它資料庫(如Embase, PsycINFO, and CINAHL),以確認Mazes之再測信度文獻是否有漏網之魚。
表一:Mazes應用於schizophrenia患者之再測信度文獻基本資料
Author
|
Year
|
評估次數
|
複本測驗
|
再測間隔 (週)
|
樣本數
|
Nuechterlein,
et al.
|
2008
|
2
|
有
|
4
|
167
|
Jędrasik-Styła,
et al.
|
2015
|
2
|
有
|
4
|
61
|
Fonseca, et
al.
|
2017
|
2
|
有
|
4
|
45
|
Ours
|
2017
|
2
|
無
|
2
|
58
|
表二:Mazes之再測信度
Author
|
n
|
ICC
|
Pearson's r
|
MDC
|
MDC%
|
SRM
|
Cohen's d
|
Nuechterlein,
et al.
|
167
|
0.83
|
0.83
|
7.9
|
65.2%
|
0.15
|
0.08
|
Jędrasik-Styła,
et al.
|
61
|
-
|
0.74
|
8.8
|
53.8%
|
0.51
|
0.38
|
Fonseca, et
al.
|
45
|
-
|
0.83
|
8.0
|
77.2%
|
0.18
|
0.10
|
Ours
|
58
|
0.67
|
0.70
|
10.5
|
71.8%
|
0.41
|
0.34
|
Pooled estimates
|
331
|
0.80
(0.75~0.83)
|
0.80
(0.75~0.85)
|
8.5
|
63.6%
|
0.26
(0.15~0.37)
|
0.18
(0.07~0.30)
|
![]() |
圖一:Mazes之SRM統合分析結果 |
2017年3月6日 星期一
C-DVT之中風病人入出院資料心理計量特性驗證議題
該資料的變項包含C-DVT、T-SDMT及BI-SS之前後測;
此外前測時評估「個案自陳認知功能狀態量表-李克氏量表版 (Gog-Status-Scale)」及「個案自陳認知功能狀態量表-VAS版 (Gog-Status-VAS)」;
另外後測時評估「個案自陳認知功能改變量表-李克氏量表版 (Gog-Change-Scale)」及「個案自陳認知功能改變量表-VAS版 (Gog-Change-VAS)」。
這筆資料可能驗證之議題如下圖(可點圖放大)。
![]() |
心理計量特性驗證可能議題。 黑色字表示主要分析議題;和色字表示次要分析議題。 Gog-Change-Scale:個案自陳認知功能改變量表(李克氏量表) Gog-Change-VAS:個案自陳認知功能改變量表(VAS量表) Gog-Status-Scale:個案自陳認知功能狀態量表(李克氏量表,僅前測時評估) Gog-Status-VAS:個案自陳認知功能狀態量表(VAS量表,僅前測時評估) |
1. C-DVT及T-SDMT之反應性(含個別&團體層級)及MID
【此資料中,認知測驗MID恐不可行...因自陳有「些微進步(如0~7分自陳認知進步量表中得2~3分)」的個案數約10人】
【此資料中,認知測驗MID恐不可行...因自陳有「些微進步(如0~7分自陳認知進步量表中得2~3分)」的個案數約10人】
2. BI-SS之MID
次要分析議題:
1. C-DVT及T-SDMT之生態效度(交叉驗證)、收斂效度(交叉驗證)、及預測效度
2. BI-SS反應性(交叉驗證)
2017年1月17日 星期二
多向度CAT如何控制各向度之施測題數
背景及問題:
目前正在發展一個4向度CAT(CAT-FASE,評量向度包含上肢/下肢動作、平衡能力、及BADL),我們採用之CAT停止施測條件 (stopping rule)只考量「測驗信度(包含信度增加量及信度>0.90)」,再依據採用各種stopping rule下施測CAT之「最終信度」及「施測總題數」選擇一較佳之stopping rule作為CAT之最終stopping rule。
上述作法(原始施測法)並未考量「個別向度所需之施測題數」,因此可能產生「部分向度(如CAT-FASE之BADL向度)可能未施測任何一題(或施測極少題)即估計出該向度之能力值」之現象。此現象可能造成2個問題:
(1) BADL向度未施測任何一題,卻可估計出個案BADL之能力值,令人質疑該向度能力估計值之有效性;
(2) 從資料分析角度而言,「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」,因BADL向度的分數是藉由其它3個向度(上肢/下肢動作及平衡能力)的測量結果所估計。
可能之解決辦法:
於CAT之stopping rule中增加「個別向度之施測題數」,而「個別向度之施測題數」有2類決定方法:
(1) 相對題數:平均各向度間之施測題數(若總測驗題數為8題,則4向度各施測2題)。
實際作法:CAT選題時每4題1組,每組必須包含4個面向的題目,且每人至少測4題。
(2) 絕對題數:各向度至少需施測N題(如1題),但向度間題數不平均。如:總測驗題數為8題,4向度題數可能為為4、2、1、1題。
實際作法:CAT選題時前4題分別選自4個向度,且每人至少測4題(因此確保各向度至少可施測1題),第5題開始則施測具有最大訊息量的題目,而不論該題來自何向度。
資料分析結果:絕對題數之結果較理想(相較於相對題數法)
優點:
(1) 施測效率較高:相對題數法強制要求「CAT選題時每4題1組,每組必須包含4個面向的題目」,而非選擇「訊息量最大」的題目(而是各向度中訊息量最大的題目),因此相對題數法CAT可能施測訊息量較低的題目,進而造成CAT所需施測之題數多於絕對題數CAT。
(2) 反應性較佳:相對題數法並非選擇「訊息量最大」的題目,因此每施測一題後個案能力估計值變化起伏較大,進而造成個案前後測分數差異之SD大(SRM不佳)。故而相對題數法之反應性劣於絕對題數法。
然而無論絕對或相對題數CAT,皆無法克服上述之問題2(「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」)。問題2可能存在於「題庫」(例如:BI同分的人較多,因此CAT-BI vs. BI的相關性較低),而非選擇CAT的stopping rules可克服。
目前正在發展一個4向度CAT(CAT-FASE,評量向度包含上肢/下肢動作、平衡能力、及BADL),我們採用之CAT停止施測條件 (stopping rule)只考量「測驗信度(包含信度增加量及信度>0.90)」,再依據採用各種stopping rule下施測CAT之「最終信度」及「施測總題數」選擇一較佳之stopping rule作為CAT之最終stopping rule。
上述作法(原始施測法)並未考量「個別向度所需之施測題數」,因此可能產生「部分向度(如CAT-FASE之BADL向度)可能未施測任何一題(或施測極少題)即估計出該向度之能力值」之現象。此現象可能造成2個問題:
(1) BADL向度未施測任何一題,卻可估計出個案BADL之能力值,令人質疑該向度能力估計值之有效性;
(2) 從資料分析角度而言,「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」,因BADL向度的分數是藉由其它3個向度(上肢/下肢動作及平衡能力)的測量結果所估計。
可能之解決辦法:
於CAT之stopping rule中增加「個別向度之施測題數」,而「個別向度之施測題數」有2類決定方法:
(1) 相對題數:平均各向度間之施測題數(若總測驗題數為8題,則4向度各施測2題)。
實際作法:CAT選題時每4題1組,每組必須包含4個面向的題目,且每人至少測4題。
(2) 絕對題數:各向度至少需施測N題(如1題),但向度間題數不平均。如:總測驗題數為8題,4向度題數可能為為4、2、1、1題。
實際作法:CAT選題時前4題分別選自4個向度,且每人至少測4題(因此確保各向度至少可施測1題),第5題開始則施測具有最大訊息量的題目,而不論該題來自何向度。
資料分析結果:絕對題數之結果較理想(相較於相對題數法)
優點:
(1) 施測效率較高:相對題數法強制要求「CAT選題時每4題1組,每組必須包含4個面向的題目」,而非選擇「訊息量最大」的題目(而是各向度中訊息量最大的題目),因此相對題數法CAT可能施測訊息量較低的題目,進而造成CAT所需施測之題數多於絕對題數CAT。
(2) 反應性較佳:相對題數法並非選擇「訊息量最大」的題目,因此每施測一題後個案能力估計值變化起伏較大,進而造成個案前後測分數差異之SD大(SRM不佳)。故而相對題數法之反應性劣於絕對題數法。
然而無論絕對或相對題數CAT,皆無法克服上述之問題2(「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」)。問題2可能存在於「題庫」(例如:BI同分的人較多,因此CAT-BI vs. BI的相關性較低),而非選擇CAT的stopping rules可克服。
2016年4月1日 星期五
控制練習效應再驗證二種版本工具之相關性
背景及問題:CDVT及DVT收案時,每位個案美次評估時皆須完成此二測驗,且此二測驗施測順序為counterbalance 設計。意即一群個案中,半數個案先施測CDVT再測DVT,另一半則先測DVT再測CDVT。
然而同一次評估中,較晚測驗的測驗結果可能受到前一次測驗之練習效應影響(例如先完成CDVT再做DVT的個案,其DVT的測驗結果可能受到個案操作CDVT的經驗影響),因而造成研究者高估較晚測驗的測驗結果。
解決辦法:先校正(控制)同一次評估中,較晚測的測驗結果(例如先完成CDVT再做DVT的個案,我們可以透過回歸分析將DVT分數之練習效應排除)[1],接著再進行後續之資料分析,包含信度及效度等。
比較原始(未校正)與校正後心理計量特性:
再測信度分析結果
同時效度分析結果(CDVT與DVT之相關):
生態效度分析結果 (CDVT vs both PSP and Lawton IADL scale):
結果總結:
信度:校正後,C-DVT的隨機測量誤差變小,而DVT的隨機測量誤差變大。
同時效度:校正後大幅提升。
生態效度:校正後之差異不大。
二種分析方法之選擇:使用校正後之分析結果撰寫論文。
參考文獻:
1. Ibrahim, I., Tobar, S., Elassy, M., Mansour, H., Chen, K., Wood, J., et al. (2015). Practice effects distort translational validity estimates for a Neurocognitive Battery. Journal of Clinical and Experimental Neuropsychology, 37, 530-537.
然而同一次評估中,較晚測驗的測驗結果可能受到前一次測驗之練習效應影響(例如先完成CDVT再做DVT的個案,其DVT的測驗結果可能受到個案操作CDVT的經驗影響),因而造成研究者高估較晚測驗的測驗結果。
解決辦法:先校正(控制)同一次評估中,較晚測的測驗結果(例如先完成CDVT再做DVT的個案,我們可以透過回歸分析將DVT分數之練習效應排除)[1],接著再進行後續之資料分析,包含信度及效度等。
比較原始(未校正)與校正後心理計量特性:
再測信度分析結果
Tests
|
Adjacent assessments
|
ICC (95% CI)
|
MDC
|
MDC%
|
Differencea
(Mean ± SD)
|
Effect sizeb
|
pc
|
C-DVT
|
Time 1-2
|
0.71 (0.54-0.83)
|
68.5
|
24.1%
|
6.8 ± 31.9
|
0.21
|
0.14
|
Time 2-3
|
0.83 (0.70-0.90)
|
44.0
|
15.9%
|
7.8 ± 21.7
|
0.36
|
0.02
|
|
Time 3-4
|
0.89 (0.81-0.93)
|
35.5
|
12.9%
|
-4.6 ± 19.6
|
-0.23
|
0.11
|
|
DVT
|
Time 1-2
|
0.95 (0.91-0.97)
|
156.0
|
29.7%
|
0.1 ± 71.0
|
0.00
|
0.99
|
Time 2-3
|
0.95 (0.90-0.97)
|
134.9
|
26.2%
|
22.7 ± 61.6
|
0.37
|
0.01
|
|
Time 3-4
|
0.96 (0.93-0.98)
|
110.1
|
22.2%
|
14.3 ± 47.3
|
0.30
|
0.04
|
|
C-DVT (校正)
|
Time 1-2
|
0.71
(0.53-0.82)
|
67.9
|
23.9%
|
6.8 ± 31.9
|
0.21
|
0.14
|
Time 2-3
|
0.82
(0.68-0.89)
|
44.8
|
16.2%
|
7.8 ± 22.2
|
0.35
|
0.02
|
|
Time 3-4
|
0.87
(0.78-0.92)
|
38.3
|
13.9%
|
-4.6 ± 20.8
|
-0.22
|
0.13
|
|
DVT (校正)
|
Time 1-2
|
0.91
(0.84-0.95)
|
175.6
|
33.4%
|
0.1 ± 93.5
|
0.00
|
0.99
|
Time 2-3
|
0.93
(0.87-0.96)
|
157.2
|
30.6%
|
22.7 ± 72.0
|
0.32
|
0.03
|
|
Time 3-4
|
0.93
(0.87-0.96)
|
129.5
|
26.1%
|
14.3 ± 66.4
|
0.22
|
0.14
|
Notes. aS Difference=Scorepre-Scorepost
bEffect size=MeanDif / SDDif
cSignificant level=0.02 (0.05/3)
同時效度分析結果(CDVT與DVT之相關):
Time 1
|
Time 2
|
Time 3
|
Time 4
|
|
原始 (Pearson
r)
|
0.53
|
0.61
|
0.54
|
0.64
|
校正後 (Pearson
r)
|
0.75
|
0.76
|
0.76
|
0.79
|
生態效度分析結果 (CDVT vs both PSP and Lawton IADL scale):
IADL
|
PSP
|
|
C-DVT
|
r=-0.44
|
r=-0.45
|
DVT
|
r=-0.15
|
r=-0.30
|
C-DVT(校正)
|
r=-0.40
|
r=-0.44
|
DVT(校正)
|
r=-0.20
|
r=0.34
|
結果總結:
信度:校正後,C-DVT的隨機測量誤差變小,而DVT的隨機測量誤差變大。
同時效度:校正後大幅提升。
生態效度:校正後之差異不大。
二種分析方法之選擇:使用校正後之分析結果撰寫論文。
參考文獻:
1. Ibrahim, I., Tobar, S., Elassy, M., Mansour, H., Chen, K., Wood, J., et al. (2015). Practice effects distort translational validity estimates for a Neurocognitive Battery. Journal of Clinical and Experimental Neuropsychology, 37, 530-537.
訂閱:
文章 (Atom)