恭宏的部落格: 請教王文中老師之IRT相關問題

1. 樣本代表性 vs sample independence

IRT的特點之一為：模型估計出來的題目難度參數具sample independence。然而sample independence的特點是建立在「樣本具代表性，包括樣本數大，且能力分佈廣」的前提之下。
請問若樣本之能力分布較侷限（如能力極好、極差的樣本較少）的情況下，估計出來的題目難度參數是否能具有sample independence之特性？

實務上的例子：使用急性中風病人（動作能力通常較差）估計出來的動作題目參數，可否應用於慢性中風病人（動作能力通常因恢復或復健而變得較好）？

2. dependent samples 可否一起分析？對於參數估計或統計檢定是否會有影響？

Rasch model的assumptions中沒有sample independence，是否意味著我們可以把同一群病人在不同時間點的評量結果，合併成一筆資料進行unidimensional Rasch analysis？
（換句話說，同一位病人的評量結果可能重複出現在同一筆資料中多次）

王文中老師課後重點紀錄：

infit & outfit 判斷標準訂定嚴苛或寬鬆，需考量工具之使用目的及重要性。如評估工具使用之目的影響深遠，如大學入學考試，則須採取嚴苛之標準。0.6~1.4仍屬於較寬鬆之標準。
DIF和invariance意義大致相同，DIF為IRT研究者習慣用法；invariance則為SEM研究者習慣用法。然而二者仍有些微差異：DIF特別指題目在不同族群之難度是否有差異；invariance則不僅限於題目難度在不同族群的差異 (例如在不同族群是否有相同的factors)。
此外，若有DIF或variance時，需進一步思考這樣的現象為什麼會產生，以及是否合理。
measurement invariance處理方法：(1) 在有DIF的族群不評估該題目（但不同族群仍必須要有共同的題目！）；(2) 看看有問題的題目跟其它題重複評估之結果是否有差異。例如其它題目都隨著評量次數增加而題目難度估計值越來越低，但有些題目則相反，這些相反的題目可能就有問題；(3) 如果全部測驗的題目不多，而測驗的使用目的又不是高風險，則還是可考慮保留該題目。
Rasch analysis VS CFA
Rasch analysis及CFA之理論、假設皆不相同，因此不宜也不需要直接比較！
此外，CFA需假設variables的scale是正負無限大，這樣的假設難以符合真實情境。
多參數IRT模型的原始分數及thita不是一對一的對應關係，主要原因為：多參數模型有加權（如猜測度及鑑別度），因此原始分數不是thita估計的充分統計量！
反之在單參數模型中，知道受測者能力 (b)就可以估計出thita，因此原始分數是thita估計的充分統計量！
staging （分級）
(1 )考量臨床上是否有分級的需求，例如分類個案的嚴重程度以進行不同的治療等。
(2) 若要分級，則需要在題目設計以前就先決定分級時要分幾級，並設定各級的特性（如不能走路、不能站及臥床等）。接著再依據各級的特性，設定符合這些等級的題目及計分方式，以篩選出符合各個等級的受試者。
sample independence VS sample representation
使用有代表性的樣本估計出來的參數才具有sample independence的特性！因此找樣本時盡量廣泛的蒐集（如各地區、各年齡層等），且重複驗證在很多樣本後，發現參數的確都沒有太大的差異，此時才可做出sample independence的推論。
同一群個案不同時間點的資料是否可一起分析？
若確保來自不同時間點的資料彼此獨立，學理上就可以一起分析，然而這些資料通常很難確保彼此獨立，例如練習效應、熟悉度、心理動機或疲勞等。
Disordering
影響：
disordering表示有些分數點沒有發揮其功能，因此降低該題可以提供的訊息量。因此會影響題目的訊息量及信度（若合併disordering的題目信度會下降）。
不影響：
(1) 不影響Rasch model中Rasch score與原始分數一對一對應的特性，且原始分數越高，Rasch score也越高。
(2) 不影響model fitting的結果。
處理：可選擇不處理，因為在某一群樣本有disordering的現象不代表在其他族群也有，且處理後會降低訊息量！

恭宏的部落格

2015年1月26日星期一

請教王文中老師之IRT相關問題

沒有留言:

張貼留言

2015年1月26日 星期一

請教王文中老師之IRT相關問題

沒有留言:

張貼留言

2015年1月26日星期一