Introducción
Una buena parte de nuestra labor como médicos es realizar mediciones e interpretar el resultado de estas mediciones. Al realizar mediciones debemos ser conscientes de la variabilidad que entreñan: el resultado de una medición va estar condicionado por:- Las características de la población en la que la realizamos (características demográficas, clínicas, genéticas, ...)
- Las características de la enfermedad en la que aplicamos la medición (puede haber diferencias según el estadio en el que se encuentre)
- El propio proceso de la medición (puede existir error aleatorio, distintos criterios de interpretación, aparataje diferente, ...)
Esta variabilidad la aquilataremos mediante el análisis de dos aspectos:
- La reproductibilidad (agreement, reproductibility, reliability), que puede ser interobservador o intraobservador
- La validez (validity)
- Interna, que estudia el grado en el que los resultados observados se deben a una intervención realizada (factores de confusión, sesgo de selección, tamaño muestral, ...)
- Externa, que estudia en qué grado los resultados obtenidos pueden generalizarse a poblaciones y situaciones espaciotemporales diferentes a las consideradas en el estudio
Reproductibilidad
Tal como vemos en el siguiente esquema, disponemos de diversas pruebas para evaluar la reproductibilidad de una prueba diagnóstica según el tipo de variable que se esté midiendo.Supongamos que disponemos de una prueba que es capaz de determinar la positividad o negatividad respecto del diagnóstico de una determinada enfermedad. Deseamos conocer en qué grado se obtienen los mismos resultados cuando dos observadores diferentes aplican la prueba a los mismos 100 enfermos (aunque este mismo planteamiento es el que se podría realizar cuando un mismo observador repite varias veces la prueba en cada enfermo). Para ello anotaremos los casos en los que ambos observadores llegan a un acuerdo en positividades y en negatividades y aquellos otros casos en los que existe discrepancia, así:
Observador 1 | ||||
---|---|---|---|---|
O b s e r v a d o r 2 |
+ | - | total | |
+ | 40a | 5b | 45 | |
- | 10c | 45d | 55 | |
total | 50 | 50 | 100 |
Como vemos cada uno de ellos habrá realizado 100 mediciones (es decir, entre ambos habrán realizado 200 mediciones). En esta situación podemos decir que 40 mediciones positivas del observador 1 coinciden con 40 mediciones positivas del observador 2 (80 mediciones), de un total de mediciones positivas de 50 del observador 1 y 45 del observador 2 (95 mediciones). El cociente entre ambas cifras (80/95 = 0.84) es lo que llamamos el índice de acuerdo específico de positividades (P0+).
Podemos hacer el mismo cálculo con las negatividades: 90/105 = 0.86; en este caso hablamos del índice de acuerdo específico de negatividades (P0-).
Cada uno de estos índices nos habla de la reproductibilidad de la prueba para positividades y negatividades. Sus valores oscilan entre 0 y 1, e índices cercanos a 1 implican buena reproductibilidad.
También podemos considerar el número de parejas de determinaciones en las que existe acuerdo, ya sea de positividad o de negatividad; en el ejemplo de la Tabla 1, 40 + 45 / 100 = 0.95. En este caso hablamos del índice de acuerdo total (P0).
Estos índices de forma aislada tienen escaso valor, ya que pueden existir situaciones con buen acuerdo total y uno de los índices de acuerdo específico muy malo. Un ejemplo lo tenemos en la Tabla 2.
Observemos ahora la Tabla 1 y 2 desde otra perspectiva. La diagonal formada por las dos celdas correspondientes a las discordancias (b y c), nos habla de asimetrías entre los dos observadores en la tendencia hacia la positividad o la negatividad en la interpretación del resultado de la prueba. Si esta asimetría es considerablemente grande nos informa de que un observador tiende a dar uno de los posibles resultados más frecuentemente que el otro observador. Esto lo podemos plasmar numéricamente mediante el índice de sesgo de McNemar (SMcN), y viene expresado por el cociente entre el valor absoluto de la diferencia de desacuerdos en el numerador y la suma de desacuerdos en el denominador.
Estos índices de forma aislada tienen escaso valor, ya que pueden existir situaciones con buen acuerdo total y uno de los índices de acuerdo específico muy malo. Un ejemplo lo tenemos en la Tabla 2.
Observador 1 | ||||
---|---|---|---|---|
O b s e r v a d o r 2 |
+ | - | total | |
+ | 90 | 5 | 95 | |
- | 5 | 0 | 5 | |
total | 95 | 5 | 100 |
Observemos ahora la Tabla 1 y 2 desde otra perspectiva. La diagonal formada por las dos celdas correspondientes a las discordancias (b y c), nos habla de asimetrías entre los dos observadores en la tendencia hacia la positividad o la negatividad en la interpretación del resultado de la prueba. Si esta asimetría es considerablemente grande nos informa de que un observador tiende a dar uno de los posibles resultados más frecuentemente que el otro observador. Esto lo podemos plasmar numéricamente mediante el índice de sesgo de McNemar (SMcN), y viene expresado por el cociente entre el valor absoluto de la diferencia de desacuerdos en el numerador y la suma de desacuerdos en el denominador.
En el ejemplo de la Tabla 1, (10 - 5) / (10 + 5) = 0.33; para la Tabla 2, (5 - 5) / (5 + 5) = 0. Por este segundo ejemplo podemos ver que la existencia de simetría completa es un dato más, pero igual que antes por sí solo es un mal índice; de forma recíproca, los índices de acuerdo pueden ser muy buenos y presentar un sesgo importante (Tabla 3: P0+ = 0.88; P0- = 0.90; P0 = 0.89; SMcN = 0.82) .
Un último índice es el índice kappa (κ); se trata de una medición del grado de acuerdo entre observadores después de detraerle el posible acuerdo que puede achacarse sólo al azar. Dicho de otra manera, es el cociente entre el exceso de acuerdo respecto del azar en el numerador, y el máximo exceso de acuerdo posible respecto al debido al azar en el denominador. Para su cálculo necesitamos las frecuencias de cada celda, en vez de sus valores absolutos. En la Tabla 4 hemos transformado la Tabla 1:
El acuerdo total (F0) será 0.4 (positividades) más 0.45 (negatividades), 0.85. El azar (Fe) podría explicar 0.45 (total de positividades del observador 2) por 0.5 (total de positividades del observador 1), más 0.55 (total de negatividades del observador 2) por 0.5 (total de negatividades del observador 2).
En nuestro ejemplo de la Tabla 4, κ toma un valor de
Observador 1 | ||||
---|---|---|---|---|
O b s e r v a d o r 2 |
+ | - | total | |
+ | 40 | 1 | 41 | |
- | 10 | 49 | 59 | |
total | 50 | 50 | 100 |
Un último índice es el índice kappa (κ); se trata de una medición del grado de acuerdo entre observadores después de detraerle el posible acuerdo que puede achacarse sólo al azar. Dicho de otra manera, es el cociente entre el exceso de acuerdo respecto del azar en el numerador, y el máximo exceso de acuerdo posible respecto al debido al azar en el denominador. Para su cálculo necesitamos las frecuencias de cada celda, en vez de sus valores absolutos. En la Tabla 4 hemos transformado la Tabla 1:
Observador 1 | ||||
---|---|---|---|---|
O b s e r v a d o r 2 |
+ | - | total | |
+ | 0.4 | 0.05 | 0.45 | |
- | 0.1 | 0.45 | 0.55 | |
total | 0.5 | 0.5 | 1 |
El acuerdo total (F0) será 0.4 (positividades) más 0.45 (negatividades), 0.85. El azar (Fe) podría explicar 0.45 (total de positividades del observador 2) por 0.5 (total de positividades del observador 1), más 0.55 (total de negatividades del observador 2) por 0.5 (total de negatividades del observador 2).
En nuestro ejemplo de la Tabla 4, κ toma un valor de
Este índice puede tomar valores entre -1 y +1. κ = 0 implica que se ha obtenido el mismo acuerdo entre observadores que podría esperarse por el azar. La interpretación de κ podemos verla en las Tablas 5 y 6:
Rango | Categoría |
---|---|
> 0.75 | Excelente |
0.4 - 0.75 | Moderado |
< 0.4 | Pobre |
Rango | Categoría |
---|---|
> 0.8 | Muy bueno |
0.61 - 0.8 | Bueno |
0.41 - 0.6 | Moderado |
0.21 - 0.4 | Bajo |
< 0.21 | Pobre |
≤ 0 | Sin acuerdo |
El índice κ puede generalizarse para más de dos categorías (Figura 2); en ese caso F0 vendría dada por la suma de frecuencias de acuerdo en las distintas categorías (en la Figura 2, F11+F22+F33) y Fe por la suma de productos de los correspondientes totales marginales para ambos observadores (F1· x C·1 + F2· x C·2 + F3· x C·3).
Figura 2
Por último, si la variable es cualitativa ordinal (las diferentes categorías guardan un orden determinado), puede emplearse el índice κ ponderado. El cálculo es similar, pero el valor de cada celda de la tabla es ponderado por un valor (un peso). Este peso podría asignarse de forma arbitraría, pero existen métodos que hacen esta tarea de una forma más correcta, ya que la asignación arbitraría de pesos llevaría a la imposibilidad de comparación de varios índices κ. Estos métodos son el método cuadrático y el método de errores absolutos. Veámoslo con un ejemplo en la Tabla 7A.
Grado de disnea | I-II | III | IV | |
---|---|---|---|---|
I-II | 15 | 5 | 3 | 23 |
III | 5 | 20 | 10 | 35 |
IV | 2 | 10 | 30 | 42 |
22 | 35 | 43 | 100 |
Si llamamos:
- r, al número de categorías
- i, al número de orden de la categoría que nos ocupe de un observador
- j, al número de orden de la categoría que nos ocupe del otro observador
- wij, al peso que le corresponde a la celda de la categoría i del primer observador y la categoría j del segundo onservador
- Método cuadrático:
- Método de errores absolutos:
Grado de disnea | I-II | III | IV |
---|---|---|---|
I-II | [1] / (1) | [0.75] / (0.5) | [0] / (0) |
III | [0.75] / (0.5) | [1] / (1) | [0.75] / (0.5) |
IV | [0] / (0) | [0.75] / (0.5) | [1] / (1) |
La Tabla 7B muestra las ponderaciones para cada celda por el método cuadrático (con corchetes) y de errores absolutos (con paréntesis). Ahora sólo nos quedaría multiplicar en cada celda su frecuencia relativa (el valor que aparece en la Tabla 7A dividido por el total de mediciones), por el peso que le ha correspondido por uno u otro método. En la Tabla 7C observamos el resultado con los pesos cuadráticos:
Grado de disnea | I-II | III | IV | |
---|---|---|---|---|
I-II | 0.15 x 1 | 0.05 x 0.75 | 0.03 x 0 | 0.23 |
III | 0.05 x 0.75 | 0.2 x 1 | 0.1 x 0.75 | 0.35 |
IV | 0.02 x 0 | 0.1 x 0.75 | 0.3 x 1 | 0.42 |
0.22 | 0.35 | 0.43 | 1 |
En esta situación F0 es la suma de todas las celdas ya ponderadas. Y Fe sería la suma de productos de los correspondientes totales marginales para cada celda, ponderándolos por el peso correspondiente a dicha celda (en nuestro ejemplo y para la primera fila: F1· x C·1 x w11 + F1· x C·2 x w12+ F1· x C·3 x w13 = 0.23 x 0.22 x 1 + 0.23 x 0.35 x 0.75 + 0.23 x 0.43 x 0 = 0.11; para la segunda fila: 0.35 x 0.22 x 0.75 + 0.35 x 0.35 x 1 + 0.35 x 0.43 x 0.75 = 0.29; y para la tercera fila: 0.42 x 0.22 x 0 + 0.42 x 0.35 x 0.75 + 0.42 x 0.43 x 1 = 0.29). Así en esta ejemplo el valor de κ será:
El índice κ presenta una serie de limitaciones:
- Su valor disminuye al aumentar el número de categorías del resultado de la prueba. Por tanto no son comparables índices κ de pruebas con diferente número de categorías. Por el contrario, en relación al índice κ ponderado y el uso de pesos cuadráticos, el valor del índice aumenta al aumentar el número de categorías.
- Su valor se ve afectado por desequilibrios entre los totales marginales de la tabla (positividades y negatividades de ambos observadores), y esta influencia es tanto mayor cuanto mayor es el acuerdo total, por lo que κ debe facilitarse junto con los índices de acuerdo específico.
- Su valor se ve afectado por la presencia de sesgo, de forma que cuando existen grandes sesgos el valor de κ se eleva. Esta influencia es tanto mayor cuanto menor es el valor de κ. Veamos el siguiente ejemplo:
Tabla 8A: Influencia del sesgo en κ (sesgo elevado) Observador 1 O
b
s
e
r
v
a
d
o
r
2+ - total + 29 6 35 - 38 27 65 total 67 33 100
En este ejemplo el índice de sesgo es |38 - 6| / (38 + 6) = 0.72, un sesgo elevado, arrojando un valor de κ de 0.2. Sin embargo, con índices de sesgo inferiores (0.04):
Tabla 8B: Influencia del sesgo en κ (sesgo bajo) Observador 1 O
b
s
e
r
v
a
d
o
r
2+ - total + 29 21 50 - 23 27 50 total 52 48 100
el valor de κ se reduce a 0.12. - Su valor se ve afectado por la prevalencia de la característica en la muestra en la que se realiza la prueba, de forma que con prevalencias muy elevadas o muy pequeñas (es decir, extremas), se obtendrá un índice κ de valor bajo. Esta influencia es tanto mayor cuanto mayor es el valor de κ. Por tanto, no son comparables índices κ procedentes de poblaciones muy diferentes respecto a la característica que se estudie.
Para valorar la prevalencia de la característica estudiada suele usarse el índice de prevalencia, cociente entre el valor absoluto de la diferencia entre acuerdos de positividades y negatividades en el numerador y el total de pruebas realizadas en el denominador.
Consideremos el siguiente ejemplo:
Tabla 9A: Influencia de la prevalencia en κ (prevalencia elevada) Observador 1 O
b
s
e
r
v
a
d
o
r
2+ - total + 28 3 31 - 6 2 8 total 34 5 39
Vemos que |28 - 2|/39 = 0.67, es un índice elevado. Esto hace la probabilidad de acuerdo simplemente por azar también elevada (Fe = 0.72), y por tanto que el índice κ sea bajo; en el ejemplo κ = 0.18. En cambio con prevalencias intermedias:
Tabla 9B: Influencia de la prevalencia en κ (prevalencia intermedia) Observador 1 O
b
s
e
r
v
a
d
o
r
2+ - total + 15 3 18 - 6 15 21 total 21 18 39
(índice de prevalencia 0, Fe = 0.5), el índice κ aumenta su valor (0.54).
siendo:
- r, el número de categorías
- Fe, el acuerdo esperado por el azar
- fi , el total marginal de la fila
- ci , el total marginal de la columna
Volviendo al ejemplo inicial expresado en frecuencias (Tabla 4), Fe es 0.5, r = 2, n = 100, f1·c1·(f1+c1) = 0.21, f2·c2·(f2+c2) = 0.28, por lo que el ee(κ) = 0.09. El IC quedaría [-0.28 ; -0.10].
Ficha bibliográfica
- Título:
- Análisis de pruebas diagnósticas (I): reproductibilidad de variables cualitativas
- Dirección:
- http://epidemiologia-estadistica.blogspot.com.es/2013/02/analisis-de-pruebas-diagnosticas-i.html
- Descripción:
- Tras una breve introducción para definir conceptos relacionados con el análisis de pruebas diagnósticas, se estudian los índices con los que puede analizarse la reproductibilidad de una prueba diagnóstica y su interpretación.
- Palabras clave:
- reproductibilidad, validez, pruebas diagnósticas
- Código de idioma:
- es
- Autor/a:
- Fco. Javier Caballero Granado
- Editor/a:
- Fco. Javier Caballero Granado
- Derechos:
- Fco. Javier Caballero Granado
- Fecha de creación:
- 2007-02-16
- Fecha de modificación:
- 2010-10-31
- Forma parte de:
- Notas sobre estadística
- Cómo citar:
- Caballero-Granado FJ. Análisis de pruebas diagnósticas (I): reproductibilidad de variables cualitativas [en línea]. Caballero-Granado FJ Ed. Creado el 16/02/2007; actualizado el 2010-10-31. Disponible en web: http://epidemiologia-estadistica.blogspot.com.es/2013/02/analisis-de-pruebas-diagnosticas-i.html [consultado el ...]
No hay comentarios:
Publicar un comentario