2015年1月26日 星期一

請教王文中老師之IRT相關問題

1. 樣本代表性 vs sample independence

IRT的特點之一為:模型估計出來的題目難度參數具sample independence。然而sample independence的特點是建立在「樣本具代表性,包括樣本數大,且能力分佈廣」的前提之下。
請問若樣本之能力分布較侷限(如能力極好、極差的樣本較少)的情況下,估計出來的題目難度參數是否能具有sample independence之特性?

實務上的例子:使用急性中風病人(動作能力通常較差)估計出來的動作題目參數,可否應用於慢性中風病人(動作能力通常因恢復或復健而變得較好)?

2. dependent samples 可否一起分析?對於參數估計或統計檢定是否會有影響?

Rasch model的assumptions中沒有sample independence,是否意味著我們可以把同一群病人在不同時間點的評量結果,合併成一筆資料進行unidimensional Rasch analysis?
(換句話說,同一位病人的評量結果可能重複出現在同一筆資料中多次)


王文中老師課後重點紀錄:

  1. infit & outfit 判斷標準訂定嚴苛或寬鬆,需考量工具之使用目的及重要性。如評估工具使用之目的影響深遠,如大學入學考試,則須採取嚴苛之標準。0.6~1.4仍屬於較寬鬆之標準。
  2. DIF和invariance意義大致相同,DIF為IRT研究者習慣用法;invariance則為SEM研究者習慣用法。然而二者仍有些微差異:DIF特別指題目在不同族群之難度是否有差異;invariance則不僅限於題目難度在不同族群的差異 (例如在不同族群是否有相同的factors)。
    此外,若有DIF或variance時,需進一步思考這樣的現象為什麼會產生,以及是否合理。
  3. measurement invariance處理方法:(1) 在有DIF的族群不評估該題目(但不同族群仍必須要有共同的題目!);(2) 看看有問題的題目跟其它題重複評估之結果是否有差異。例如其它題目都隨著評量次數增加而題目難度估計值越來越低,但有些題目則相反,這些相反的題目可能就有問題;(3) 如果全部測驗的題目不多,而測驗的使用目的又不是高風險,則還是可考慮保留該題目。
  4. Rasch analysis VS CFA
    Rasch analysis及CFA之理論、假設皆不相同,因此不宜也不需要直接比較!
    此外,
    CFA需假設variables的scale是正負無限大,這樣的假設難以符合真實情境。
  5. 多參數IRT模型的原始分數及thita不是一對一的對應關係,主要原因為:多參數模型有加權(如猜測度及鑑別度),因此原始分數不是thita估計的充分統計量!
    反之在單參數模型中,知道受測者能力 (b)就可以估計出thita,因此
    原始分數是thita估計的充分統計量!
  6. staging (分級)
    (1 )考量臨床上是否有分級的需求,例如分類個案的嚴重程度以進行不同的治療等。
    (2) 若要分級,則需要在題目設計以前就先決定分級時要分幾級,並設定各級的特性(如不能走路、不能站及臥床等)。接著再依據各級的特性,設定符合這些等級的題目及計分方式,以篩選出符合各個等級的受試者。
  7. sample independence VS sample representation
    使用有代表性的樣本估計出來的參數才具有sample independence的特性!因此找樣本時盡量廣泛的蒐集(如各地區、各年齡層等),且重複驗證在很多樣本後,發現參數的確都沒有太大的差異,此時才可做出sample independence的推論。
  8. 同一群個案不同時間點的資料是否可一起分析?
    若確保來自不同時間點的資料彼此獨立,學理上就可以一起分析,然而這些資料通常很難確保彼此獨立,例如練習效應、熟悉度、心理動機或疲勞等。
  9. Disordering
    影響
    disordering表示有些分數點沒有發揮其功能,因此降低該題可以提供的訊息量。因此會影響題目的訊息量及信度(若合併disordering的題目信度會下降)。
    不影響
    (1) 不影響Rasch model中Rasch score與原始分數一對一對應的特性,且原始分數越高,
    Rasch score也越高。
    (2) 不影響model fitting的結果。
    處理:可選擇不處理,因為在某一群樣本有disordering的現象不代表在其他族群也有,且處理後會降低訊息量!