恭宏的部落格: 心理計量

顯示具有 心理計量 標籤的文章。顯示所有文章

2018年2月9日星期五

使用 cumulative–reliability function 結取信度較高的部分測驗分數

Cumulative–reliability function (CRF) 概念介紹：
傳統測驗理論中，長度越長（題數越多）的測驗通常具備較佳之信度，包含再測信度及內在一致性。
然而測驗需要多長的題數才可達到理想（或可接受）的信度程度呢？這個問題可藉由CRF分析幫助回答。
CRF旨在模擬分析同一測驗在各個長度 (1%~100%) 下的信度。
例如Computerized Digit Vigilance Test (C-DVT) 是一持續性注意力測驗，包含120題判斷螢幕是否有呈現數字六，C-DVT主要分數為完成120題之總時間。
CRF應用於C-DVT之再測信度分析時，我們使用所有受測者完成第1～N (N = 1~120，即測驗長度1%~100%) 題的總完成時間，一一分析再測信度 (Pearson's r & ICC)。
分析完120次（測驗長度1、1～2、1～3、...、1～120）再測信度後，在使用測驗長度vs.信度指標繪製散布圖，即可瞭解信度隨著測驗長度增加之變化，如下圖。

應用目的/價值：
1. 發展短版測驗：若前幾%的測驗已可達到不錯的信度（如上圖60%時，再測信度二指標已接近 0.90），則後面題目可捨去以發展短版測驗，提昇評估效率。
2. 計算分數時排除前幾%之題目：受測者作答前幾%之題目時，可能因為對題目不夠熟悉或緊張等因素，導致其表現不穩定，進而影響測驗的信度（如上圖的前30%）。此時研究者可不採納前幾%題目之分數，以計算最後的測驗分數。
以上圖為例，C-DVT的主要分數可用「31%~100%的總完成時間」，而非原本的「全部測驗完成 (1%~100%) 總時間」。

綜合上述2項應用目的，我們建議採用「C-DVT之31%~60%的題目」組成短版C-DVT，以提升評估效率，並兼具測驗信度。

適用之測驗：
較適用任務相同但重複多題的認知心理測驗，如：C-DVT每題的任務都相同：判斷有沒有數字六。
若整份測驗題目雖多，但每題內容/任務不同（如生活品質問卷），則每題可提供獨特的訊息/資訊，故不宜用CRF捨去測驗前面或後面幾%之題目。

2017年9月18日星期一

C-DVT及T-SDMT反應性資料探索

以下為C-DVT及T-SDMT可能發表之論文主題：

C-DVT

主題1：C-DVT之MID

結果：18位中風患者之自覺持續性注意力改變量為2-3分（最大改變量7分），這群患者之C-DVT前後測進步秒數為13.9秒（總完成時間），即C-DVT之MID=13.9秒。

Note：後續可延伸分析C-DVT短版之MID

主題2：C-DVT原版 VS. 短版之反應性

結果：

	原版	短版 (31st-60th percentile)
全部樣本數 (N = 41)
Group level (SRM)	0.31	0.18
Individual level (% of patients whose change score > MDC)	34.1%	29.2%
前後測間隔天數≥14 (N = 27)
Group level (SRM)	0.57	0.51
Individual level (% of patients whose change score > MDC)	85.7%	71.4%

T-SDMT

主題1：T-SDMT之MID

結果：14位中風患者之自覺分配性注意力改變量為2-3分（最大改變量7分），這群患者之T-SDMT前後測進步之答對題數為4.3題，即T-SDMT（施測三次取平均）之MID=4.3題。

主題2：T-SDMT不同施測方式之反應性比較

結果：

	施測一次	施測二次取平均	施測三次取平均
全部樣本數 (N = 44)
Group level (SRM)	0.58	0.67	0.69
Individual level (% of patients whose change score > MDC)	25.0%	20.5%	20.5%
前後測間隔天數≥14 (N = 31)
Group level (SRM)	0.45	0.52	0.55
Individual level (% of patients whose change score > MDC)	22.6%	16.1%	12.9%

解讀：施測二次取平均之反應性與施測三次取平均相仿，或許未來使用T-SDMT只要施測二次即可（須同時考量test-retest reliability之結果）。

Note:【施測二次取平均】及【施測三次取平均】之個體層級反應性可能低估。因【施測二次取平均】及【施測三次取平均】之個體層級反應性參照【施測一次】之MDC值，但【施測二次取平均】及【施測三次取平均】之MID應 <【施測一次】之MDC值。

2017年4月27日星期四

Mazes統合分析

Mazes迷宮測驗為MCCB之子測驗。
我於PubMed檢索Mazes或MCCB驗證於schizophrenia患者之再測信度文獻，共查獲3篇（表一之前三篇）。加上我們的收案資料，共使用4篇文獻進行統合分析。

Mazes之再測信度統合分析結果顯示（表二）：Mazes之再測信度係數良好 (pooled ICC & Pearson's r = 0.80)，但隨機測量誤差大 (pooled MDC% = 63.6%)，且有微小至小的練習效應 (pooled SRM & Cohen's d = 0.26 & 0.18, respectively)。Mazes之SRM森林圖 (forest plot)呈現於圖一。
Note: ICC & Pearson's r的森林圖未附上於此，因二者的森林圖是呈現z值而非ICC & Pearson's r，使得森林圖之數值不易解讀。ICC & Pearson's r於統合分析時都須先轉換成常態z值，再用z值進行運算。
未來可找其它軟體或方法繪製呈現ICC & Pearson's r的森林圖

未來須檢索其它資料庫（如Embase, PsycINFO, and CINAHL），以確認Mazes之再測信度文獻是否有漏網之魚。

表一：Mazes應用於schizophrenia患者之再測信度文獻基本資料

Author	Year	評估次數	複本測驗	再測間隔 (週)	樣本數
Nuechterlein, et al.	2008	2	有	4	167
Jędrasik-Styła, et al.	2015	2	有	4	61
Fonseca, et al.	2017	2	有	4	45
Ours	2017	2	無	2	58

表二：Mazes之再測信度

Author	n	ICC	Pearson's r	MDC	MDC%	SRM	Cohen's d
Nuechterlein, et al.	167	0.83	0.83	7.9	65.2%	0.15	0.08
Jędrasik-Styła, et al.	61	-	0.74	8.8	53.8%	0.51	0.38
Fonseca, et al.	45	-	0.83	8.0	77.2%	0.18	0.10
Ours	58	0.67	0.70	10.5	71.8%	0.41	0.34
Pooled estimates	331	0.80 (0.75~0.83)	0.80 (0.75~0.85)	8.5	63.6%	0.26 (0.15~0.37)	0.18 (0.07~0.30)

圖一：Mazes之SRM統合分析結果

2017年3月6日星期一

C-DVT之中風病人入出院資料心理計量特性驗證議題

C-DVT及T-SDMT於中風個案入出院評估資料以蒐集暫告一段落。
該資料的變項包含C-DVT、T-SDMT及BI-SS之前後測；
此外前測時評估「個案自陳認知功能狀態量表-李克氏量表版 (Gog-Status-Scale)」及「個案自陳認知功能狀態量表-VAS版 (Gog-Status-VAS)」；
另外後測時評估「個案自陳認知功能改變量表-李克氏量表版 (Gog-Change-Scale)」及「個案自陳認知功能改變量表-VAS版 (Gog-Change-VAS)」。

這筆資料可能驗證之議題如下圖（可點圖放大）。

心理計量特性驗證可能議題。
黑色字表示主要分析議題；和色字表示次要分析議題。
Gog-Change-Scale：個案自陳認知功能改變量表（李克氏量表）
Gog-Change-VAS：個案自陳認知功能改變量表（VAS量表）
Gog-Status-Scale：個案自陳認知功能狀態量表（李克氏量表，僅前測時評估）
Gog-Status-VAS：個案自陳認知功能狀態量表（VAS量表，僅前測時評估）

主要分析議題：

1. C-DVT及T-SDMT之反應性（含個別&團體層級）及MID
【此資料中，認知測驗MID恐不可行...因自陳有「些微進步（如0~7分自陳認知進步量表中得2~3分）」的個案數約10人】

2. BI-SS之MID

次要分析議題：

1. C-DVT及T-SDMT之生態效度（交叉驗證）、收斂效度（交叉驗證）、及預測效度

2. BI-SS反應性（交叉驗證）

2017年1月17日星期二

多向度CAT如何控制各向度之施測題數

背景及問題：
目前正在發展一個4向度CAT（CAT-FASE，評量向度包含上肢/下肢動作、平衡能力、及BADL），我們採用之CAT停止施測條件 (stopping rule)只考量「測驗信度（包含信度增加量及信度>0.90）」，再依據採用各種stopping rule下施測CAT之「最終信度」及「施測總題數」選擇一較佳之stopping rule作為CAT之最終stopping rule。
上述作法（原始施測法）並未考量「個別向度所需之施測題數」，因此可能產生「部分向度（如CAT-FASE之BADL向度）可能未施測任何一題（或施測極少題）即估計出該向度之能力值」之現象。此現象可能造成2個問題：
(1) BADL向度未施測任何一題，卻可估計出個案BADL之能力值，令人質疑該向度能力估計值之有效性；
(2) 從資料分析角度而言，「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」，因BADL向度的分數是藉由其它3個向度（上肢/下肢動作及平衡能力）的測量結果所估計。

可能之解決辦法：
於CAT之stopping rule中增加「個別向度之施測題數」，而「個別向度之施測題數」有2類決定方法：
(1) 相對題數：平均各向度間之施測題數（若總測驗題數為8題，則4向度各施測2題）。
實際作法：CAT選題時每4題1組，每組必須包含4個面向的題目，且每人至少測4題。
(2) 絕對題數：各向度至少需施測N題（如1題），但向度間題數不平均。如：總測驗題數為8題，4向度題數可能為為4、2、1、1題。
實際作法：CAT選題時前4題分別選自4個向度，且每人至少測4題（因此確保各向度至少可施測1題），第5題開始則施測具有最大訊息量的題目，而不論該題來自何向度。

資料分析結果：絕對題數之結果較理想（相較於相對題數法）
優點：
(1) 施測效率較高：相對題數法強制要求「CAT選題時每4題1組，每組必須包含4個面向的題目」，而非選擇「訊息量最大」的題目（而是各向度中訊息量最大的題目），因此相對題數法CAT可能施測訊息量較低的題目，進而造成CAT所需施測之題數多於絕對題數CAT。
(2) 反應性較佳：相對題數法並非選擇「訊息量最大」的題目，因此每施測一題後個案能力估計值變化起伏較大，進而造成個案前後測分數差異之SD大（SRM不佳）。故而相對題數法之反應性劣於絕對題數法。

然而無論絕對或相對題數CAT，皆無法克服上述之問題2（「BADL向度的分數與其它BADL測驗分數的相關性」可能低於「其與上肢動作/下肢動作/平衡能力測驗分數之相關性」）。問題2可能存在於「題庫」（例如：BI同分的人較多，因此CAT-BI vs. BI的相關性較低），而非選擇CAT的stopping rules可克服。

2016年4月1日星期五

控制練習效應再驗證二種版本工具之相關性

背景及問題：CDVT及DVT收案時，每位個案美次評估時皆須完成此二測驗，且此二測驗施測順序為counterbalance 設計。意即一群個案中，半數個案先施測CDVT再測DVT，另一半則先測DVT再測CDVT。
然而同一次評估中，較晚測驗的測驗結果可能受到前一次測驗之練習效應影響（例如先完成CDVT再做DVT的個案，其DVT的測驗結果可能受到個案操作CDVT的經驗影響），因而造成研究者高估較晚測驗的測驗結果。

解決辦法：先校正（控制）同一次評估中，較晚測的測驗結果（例如先完成CDVT再做DVT的個案，我們可以透過回歸分析將DVT分數之練習效應排除）[1]，接著再進行後續之資料分析，包含信度及效度等。

比較原始（未校正）與校正後心理計量特性：
再測信度分析結果

Tests	Adjacent assessments	ICC (95% CI)	MDC	MDC%	Difference^a (Mean ± SD)	Effect size^b	p^c
C-DVT	Time 1-2	0.71 (0.54-0.83)	68.5	24.1%	6.8 ± 31.9	0.21	0.14
	Time 2-3	0.83 (0.70-0.90)	44.0	15.9%	7.8 ± 21.7	0.36	0.02
	Time 3-4	0.89 (0.81-0.93)	35.5	12.9%	-4.6 ± 19.6	-0.23	0.11
DVT	Time 1-2	0.95 (0.91-0.97)	156.0	29.7%	0.1 ± 71.0	0.00	0.99
	Time 2-3	0.95 (0.90-0.97)	134.9	26.2%	22.7 ± 61.6	0.37	0.01
	Time 3-4	0.96 (0.93-0.98)	110.1	22.2%	14.3 ± 47.3	0.30	0.04
C-DVT (校正)	Time 1-2	0.71 (0.53-0.82)	67.9	23.9%	6.8 ± 31.9	0.21	0.14
	Time 2-3	0.82 (0.68-0.89)	44.8	16.2%	7.8 ± 22.2	0.35	0.02
	Time 3-4	0.87 (0.78-0.92)	38.3	13.9%	-4.6 ± 20.8	-0.22	0.13
DVT (校正)	Time 1-2	0.91 (0.84-0.95)	175.6	33.4%	0.1 ± 93.5	0.00	0.99
	Time 2-3	0.93 (0.87-0.96)	157.2	30.6%	22.7 ± 72.0	0.32	0.03
	Time 3-4	0.93 (0.87-0.96)	129.5	26.1%	14.3 ± 66.4	0.22	0.14

Notes. ^aSDifference=Score_pre-Score_post

^bEffect size=Mean_Dif / SD_Dif

^cSignificant level=0.02 (0.05/3)

同時效度分析結果（CDVT與DVT之相關）：

	Time 1	Time 2	Time 3	Time 4
原始 (Pearson r)	0.53	0.61	0.54	0.64
校正後 (Pearson r)	0.75	0.76	0.76	0.79

生態效度分析結果 (CDVT vs both PSP and Lawton IADL scale):

	IADL	PSP
C-DVT	r=-0.44	r=-0.45
DVT	r=-0.15	r=-0.30
C-DVT（校正）	r=-0.40	r=-0.44
DVT（校正）	r=-0.20	r=0.34

結果總結：
信度：校正後，C-DVT的隨機測量誤差變小，而DVT的隨機測量誤差變大。
同時效度：校正後大幅提升。
生態效度：校正後之差異不大。

二種分析方法之選擇：使用校正後之分析結果撰寫論文。

參考文獻：
1. Ibrahim, I., Tobar, S., Elassy, M., Mansour, H., Chen, K., Wood, J., et al. (2015). Practice effects distort translational validity estimates for a Neurocognitive Battery. Journal of Clinical and Experimental Neuropsychology, 37, 530-537.

訂閱：文章 (Atom)

2018年2月9日 星期五