顯示具有 心理計量 標籤的文章。 顯示所有文章
顯示具有 心理計量 標籤的文章。 顯示所有文章

2018年2月9日 星期五

使用 cumulative–reliability function 結取信度較高的部分測驗分數

Cumulative–reliability function (CRF) 概念介紹:
傳統測驗理論中,長度越長(題數越多)的測驗通常具備較佳之信度,包含再測信度及內在一致性。
然而測驗需要多長的題數才可達到理想(或可接受)的信度程度呢?這個問題可藉由CRF分析幫助回答。
CRF旨在模擬分析同一測驗在各個長度 (1%~100%) 下的信度
例如Computerized Digit Vigilance Test (C-DVT) 是一持續性注意力測驗,包含120題判斷螢幕是否有呈現數字六,C-DVT主要分數為完成120題之總時間。
CRF應用於C-DVT之再測信度分析時,我們使用所有受測者完成第1~N (N = 1~120,即測驗長度1%~100%) 題的總完成時間,一一分析再測信度 (Pearson's r & ICC)。
分析完120次(測驗長度1、1~2、1~3、...、1~120)再測信度後,在使用測驗長度vs.信度指標繪製散布圖,即可瞭解信度隨著測驗長度增加之變化,如下圖。


應用目的/價值:
1. 發展短版測驗:若前幾%的測驗已可達到不錯的信度(如上圖60%時,再測信度二指標已接近 0.90),則後面題目可捨去以發展短版測驗,提昇評估效率。
2. 計算分數時排除前幾%之題目:受測者作答前幾%之題目時,可能因為對題目不夠熟悉或緊張等因素,導致其表現不穩定,進而影響測驗的信度(如上圖的前30%)。此時研究者可不採納前幾%題目之分數,以計算最後的測驗分數。
以上圖為例,C-DVT的主要分數可用「31%~100%的總完成時間」,而非原本的「全部測驗完成 (1%~100%) 總時間」。

綜合上述2項應用目的,我們建議採用「C-DVT之31%~60%的題目」組成短版C-DVT,以提升評估效率,並兼具測驗信度。

適用之測驗:
較適用任務相同但重複多題的認知心理測驗,如:C-DVT每題的任務都相同:判斷有沒有數字六。
若整份測驗題目雖多,但每題內容/任務不同(如生活品質問卷),則每題可提供獨特的訊息/資訊,故不宜用CRF捨去測驗前面或後面幾%之題目。



2017年9月18日 星期一

C-DVT及T-SDMT反應性資料探索

以下為C-DVT及T-SDMT可能發表之論文主題:

C-DVT

主題1:C-DVTMID

結果:18位中風患者之自覺持續性注意力改變量為2-3分(最大改變量7分),這群患者之C-DVT前後測進步秒數為13.9秒(總完成時間),即C-DVTMID=13.9秒。
Note:後續可延伸分析C-DVT短版之MID

主題2:C-DVT原版 VS. 短版 之反應性
結果:

原版
短版
(31st-60th percentile)
全部樣本數 (N = 41)


Group level (SRM)
0.31
0.18
Individual level
(% of patients whose change score > MDC)
34.1%
29.2%
前後測間隔天數≥14
(N = 27)


Group level (SRM)
0.57
0.51
Individual level
(% of patients whose change score > MDC)
85.7%
71.4%

T-SDMT

主題1:T-SDMTMID
結果:14位中風患者之自覺分配性注意力改變量為2-3分(最大改變量7分),這群患者之T-SDMT前後測進步之答對題數為4.3題,即T-SDMT(施測三次取平均)之MID=4.3題。

主題2:T-SDMT不同施測方式之反應性比較
結果:

施測一次
施測二次取平均
施測三次取平均
全部樣本數
(N = 44)



Group level (SRM)
0.58
0.67
0.69
Individual level
(% of patients whose change score > MDC)
25.0%
20.5%
20.5%
前後測間隔天數≥14
(N = 31)



Group level (SRM)
0.45
0.52
0.55
Individual level
(% of patients whose change score > MDC)
22.6%
16.1%
12.9%
解讀:施測二次取平均之反應性與施測三次取平均相仿,或許未來使用T-SDMT只要施測二次即可(須同時考量test-retest reliability之結果)。
Note:【施測二次取平均】及【施測三次取平均】之個體層級反應性可能低估。因【施測二次取平均】及【施測三次取平均】之個體層級反應性參照【施測一次】之MDC值,但【施測二次取平均】及【施測三次取平均】之MID <【施測一次】之MDC值。

2017年4月27日 星期四

Mazes統合分析

Mazes迷宮測驗為MCCB之子測驗。
我於PubMed檢索Mazes或MCCB驗證於schizophrenia患者之再測信度文獻,共查獲3篇(表一之前三篇)。加上我們的收案資料,共使用4篇文獻進行統合分析。

Mazes之再測信度統合分析結果顯示(表二):Mazes之再測信度係數 良好 (pooled ICC & Pearson's r = 0.80),但隨機測量誤差大 (pooled MDC% = 63.6%),且有微小至小的練習效應 (pooled SRM & Cohen's d = 0.26 & 0.18, respectively)。Mazes之SRM森林圖 (forest plot)呈現於圖一。
Note: ICC & Pearson's r的森林圖未附上於此,因二者的森林圖是呈現z值而非ICC & Pearson's r,使得森林圖之數值不易解讀。ICC & Pearson's r於統合分析時都須先轉換成常態z值,再用z值進行運算。
未來可找其它軟體或方法繪製呈現ICC & Pearson's r的森林圖


未來須檢索其它資料庫(如Embase, PsycINFO, and CINAHL),以確認Mazes之再測信度文獻是否有漏網之魚。

表一:Mazes應用於schizophrenia患者之再測信度文獻基本資料
Author
Year
評估次數
複本測驗
再測間隔 ()
樣本數
Nuechterlein, et al.
2008
2
4
167
Jędrasik-Styła, et al.
2015
2
4
61
Fonseca, et al.
2017
2
4
45
Ours
2017
2
2
58

表二:Mazes之再測信度
Author
n
ICC
Pearson's r
MDC
MDC%
SRM
Cohen's d
Nuechterlein, et al.
167
0.83
0.83
7.9
65.2%
0.15
0.08
Jędrasik-Styła, et al.
61
-
0.74
8.8
53.8%
0.51
0.38
Fonseca, et al.
45
-
0.83
8.0
77.2%
0.18
0.10
Ours
58
0.67
0.70
10.5
71.8%
0.41
0.34
Pooled estimates
331
0.80 (0.75~0.83)
0.80 (0.75~0.85)
8.5
63.6%
0.26 (0.15~0.37)
0.18 (0.07~0.30)

圖一:Mazes之SRM統合分析結果

2017年3月6日 星期一

C-DVT之中風病人入出院資料心理計量特性驗證議題

C-DVT及T-SDMT於中風個案入出院評估資料以蒐集暫告一段落。
該資料的變項包含C-DVT、T-SDMT及BI-SS之前後測;
此外前測時評估「個案自陳認知功能狀態量表-李克氏量表版 (Gog-Status-Scale)」及「個案自陳認知功能狀態量表-VAS版 (Gog-Status-VAS)」;
另外後測時評估「個案自陳認知功能改變量表-李克氏量表版 (Gog-Change-Scale)」及「個案自陳認知功能改變量表-VAS版 (Gog-Change-VAS)」。

這筆資料可能驗證之議題如下圖(可點圖放大)。
心理計量特性驗證可能議題。
黑色字表示主要分析議題;和色字表示次要分析議題。
Gog-Change-Scale:個案自陳認知功能改變量表(李克氏量表)
Gog-Change-VAS:個案自陳認知功能改變量表(VAS量表)
Gog-Status-Scale:個案自陳認知功能狀態量表(李克氏量表,僅前測時評估)
Gog-Status-VAS:個案自陳認知功能狀態量表(VAS量表,僅前測時評估)
主要分析議題:
1. C-DVT及T-SDMT之反應性(含個別&團體層級)及MID
【此資料中,認知測驗MID恐不可行...因自陳有「些微進步(如0~7分自陳認知進步量表中得2~3分)」的個案數約10人】
2. BI-SS之MID

次要分析議題:
1. C-DVT及T-SDMT之生態效度(交叉驗證)、收斂效度(交叉驗證)、及預測效度
2. BI-SS反應性(交叉驗證)


2017年1月17日 星期二

多向度CAT如何控制各向度之施測題數

背景及問題:
     目前正在發展一個4向度CAT(CAT-FASE,評量向度包含上肢/下肢動作、平衡能力、及BADL),我們採用之CAT停止施測條件 (stopping rule)只考量「測驗信度(包含信度增加量及信度>0.90)」,再依據採用各種stopping rule下施測CAT之「最終信度」及「施測總題數」選擇一較佳之stopping rule作為CAT之最終stopping rule。
     上述作法(原始施測法)並未考量「個別向度所需之施測題數」,因此可能產生「部分向度(如CAT-FASE之BADL向度)可能未施測任何一題(或施測極少題)即估計出該向度之能力值」之現象。此現象可能造成2個問題:
(1) BADL向度未施測任何一題,卻可估計出個案BADL之能力值,令人質疑該向度能力估計值之有效性;
(2) 從資料分析角度而言,「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」,因BADL向度的分數是藉由其它3個向度(上肢/下肢動作及平衡能力)的測量結果所估計。

可能之解決辦法:
     於CAT之stopping rule中增加「個別向度之施測題數」,而「個別向度之施測題數」有2類決定方法:
     (1) 相對題數:平均各向度間之施測題數(若總測驗題數為8題,則4向度各施測2題)。
實際作法:CAT選題時每4題1組,每組必須包含4個面向的題目,且每人至少測4題。
     (2) 絕對題數:各向度至少需施測N題(如1題),但向度間題數不平均。如:總測驗題數為8題,4向度題數可能為為4、2、1、1題。
實際作法:CAT選題時前4題分別選自4個向度,且每人至少測4題(因此確保各向度至少可施測1題),第5題開始則施測具有最大訊息量的題目,而不論該題來自何向度。

資料分析結果:絕對題數之結果較理想相較於相對題數法)
優點
     (1) 施測效率較高:相對題數法強制要求「CAT選題時每4題1組,每組必須包含4個面向的題目」,而非選擇「訊息量最大」的題目(而是各向度中訊息量最大的題目),因此相對題數法CAT可能施測訊息量較低的題目,進而造成CAT所需施測之題數多於絕對題數CAT
     (2) 反應性較佳:相對題數法並非選擇「訊息量最大」的題目,因此每施測一題後個案能力估計值變化起伏較大,進而造成個案前後測分數差異之SD大(SRM不佳)。故而相對題數法之反應性劣於絕對題數法。

然而無論絕對或相對題數CAT,皆無法克服上述之問題2(「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」)。問題2可能存在於「題庫」(例如:BI同分的人較多,因此CAT-BI vs. BI的相關性較低),而非選擇CAT的stopping rules可克服。

2016年4月1日 星期五

控制練習效應再驗證二種版本工具之相關性

 背景及問題:CDVT及DVT收案時,每位個案美次評估時皆須完成此二測驗,且此二測驗施測順序為counterbalance 設計。意即一群個案中,半數個案先施測CDVT再測DVT,另一半則先測DVT再測CDVT。
然而同一次評估中,較晚測驗的測驗結果可能受到前一次測驗之練習效應影響(例如先完成CDVT再做DVT的個案,其DVT的測驗結果可能受到個案操作CDVT的經驗影響),因而造成研究者高估較晚測驗的測驗結果

解決辦法:先校正(控制)同一次評估中,較晚測的測驗結果(例如先完成CDVT再做DVT的個案,我們可以透過回歸分析將DVT分數之練習效應排除)[1],接著再進行後續之資料分析,包含信度及效度等。

比較原始(未校正)與校正後心理計量特性:
再測信度分析結果

Tests
Adjacent assessments
ICC (95% CI)
MDC
MDC%
Differencea
(Mean ± SD)
Effect sizeb
pc
C-DVT
Time 1-2
0.71 (0.54-0.83)
68.5
24.1%
6.8 ± 31.9
0.21
0.14
Time 2-3
0.83 (0.70-0.90)
44.0
15.9%
7.8 ± 21.7
0.36
0.02
Time 3-4
0.89 (0.81-0.93)
35.5
12.9%
-4.6 ± 19.6
-0.23
0.11
DVT
Time 1-2
0.95 (0.91-0.97)
156.0
29.7%
0.1 ± 71.0
0.00
0.99
Time 2-3
0.95 (0.90-0.97)
134.9
26.2%
22.7 ± 61.6
0.37
0.01
Time 3-4
0.96 (0.93-0.98)
110.1
22.2%
14.3 ± 47.3
0.30
0.04
C-DVT (校正)
Time 1-2
0.71 (0.53-0.82)
67.9
23.9%
6.8 ± 31.9
0.21
0.14

Time 2-3
0.82 (0.68-0.89)
44.8
16.2%
7.8 ± 22.2
0.35
0.02

Time 3-4
0.87 (0.78-0.92)
38.3
13.9%
-4.6 ± 20.8
-0.22
0.13
DVT (校正)
Time 1-2
0.91 (0.84-0.95)
175.6
33.4%
0.1 ± 93.5
0.00
0.99

Time 2-3
0.93 (0.87-0.96)
157.2
30.6%
22.7 ± 72.0
0.32
0.03

Time 3-4
0.93 (0.87-0.96)
129.5
26.1%
14.3 ± 66.4
0.22
0.14
Notes. aSDifference=Scorepre-Scorepost
bEffect size=MeanDif / SDDif
cSignificant level=0.02 (0.05/3)


同時效度分析結果(CDVT與DVT之相關):

Time 1
Time 2
Time 3
Time 4
原始 (Pearson r)
0.53
0.61
0.54
0.64
校正後 (Pearson r)
0.75
0.76
0.76
0.79

生態效度分析結果 (CDVT vs both PSP and Lawton IADL scale):

IADL
PSP
C-DVT
r=-0.44
r=-0.45
DVT
r=-0.15
r=-0.30
C-DVT(校正)
r=-0.40
r=-0.44
DVT(校正)
r=-0.20
r=0.34

結果總結:
信度:校正後,C-DVT的隨機測量誤差變小,而DVT隨機測量誤差變大
同時效度:校正後大幅提升。
生態效度:校正後之差異不大。


二種分析方法之選擇:使用校正後之分析結果撰寫論文。

參考文獻:
1. Ibrahim, I., Tobar, S., Elassy, M., Mansour, H., Chen, K., Wood, J., et al. (2015). Practice effects distort translational validity estimates for a Neurocognitive Battery. Journal of Clinical and Experimental Neuropsychology, 37, 530-537.