|
A Teoria da Resposta ao Item , muitas vezes abreviada
apenas por TRI, é uma modelagem estatística utilizada em medidas psicométricas,
principalmente na área de avaliação de habilidades e conhecimentos.
A aplicação mais frequente da Teoria da Resposta ao Item
ocorre nas avaliações de habilidades e
conhecimentos em Testes de Múltipla Escolha. A Teoria da Resposta ao Item, contudo, pode abranger também testes dissertativos
além de poder abarcar várias outras áreas onde se deseje obter uma medida indireta de alguma característica, por exemplo: estimar
a altura de uma pessoa através de um questionário com perguntas indiretas como "Você costuma abaixar a cabeça ao passar por uma porta?"
onde sabemos que as respostas "sim" e "não" estão correlacionadas com a característica a ser medida indiretamente, no caso a altura da pessoa.
Outras áreas proeminentes para a aplicação da Teoria da Resposta ao Item são os Testes Psicológicos e questionários em geral, com destaque para
questionários que meçam o nível socioeconômico dos pesquisados.
A Teoria da Resposta ao Item é utilizada em avaliações de vários países, onde os programas de avaliação mais conhecidos são o NAEP[1] nos
Estados Unidos da América, o ETS[2] nos Estados Unidos da América, o GMAT[3] nos Estados Unidos da América, o CITO[4] na Holanda e vários
outros. No Brasil, o principal programa de avaliação que utiliza a Teoria da Resposta ao Item é o SAEB, que desde sua criação em 1995 a
utiliza para estimar as habilidades e conhecimentos dos alunos dos Ensinos
Fundamental e Médio das escolas públicas brasileiras através de amostragem
do universo desses alunos. O novo Enem, aplicado pela primeira vez em dezembro de 2009, também fez uso da TRI, de forma a garantir a comparabilidade
das notas entre diferentes edições.
A Teoria da Resposta ao Item surgiu a partir de discussões teóricas sobre a viabilidade de se compararem as habilidades
e os conhecimentos de examinandos submetidos a provas diferentes. A Teoria Clássica dos Testes, principal teoria estatística para
a medida dessas
características na época, via-se diante de enormes dificuldades para comparar as habilidades e os conhecimentos de examinandos submetidos a provas
diferentes. Nesse sentido, em 1950, Gulliksen H definiu, no âmbito da Teoria Clássica dos Testes, que duas provas podem ser consideradas formas
paralelas quando, após a conversão para a mesma escala, suas médias, desvios padrão de acertos, bem como demais correlações do número de acertos
com todo e qualquer outro critério fossem iguais. Em 1971, ainda no âmbito da Teoria Clássica dos Testes, Angoff W delimita a equivalência de
provas ao apresentar as seguintes exigências:
As provas devem medir a mesma característica ou habilidade;
A equivalência estabelecida deve ser independente dos dados em particular utilizados para estabelecer esse princípio e deve ser aplicável em todas as situações parecidas;
Os escores de duas provas, uma vez estabelecida sua equivalência, devem ser substituíveis entre si, e;
A equivalência deve ser simétrica, ou seja, não deve fazer distinção entre a prova particular escolhida como base de referência.
Ainda no âmbito da Teoria Clássica dos Testes, em 1977, Lord, F M estende as considerações levantadas por Angoff. A noção de escores substituíveis
ganha nova dimensão com a introdução do conceito de equidade: Os escores transformados y* e observados x podem ser considerados "equivalentes"
quando houver indiferença se um examinando responder à prova X ou Y. De acordo com esse princípio:
Torna-se inviável a tentativa de se estabelecer a equivalência entre provas que medem diferentes características ou habilidades (consistente com a primeira restrição de Angoff);
A equivalência de escores com margens de erro desiguais não pode ser estabelecida (consistente com os escores substituíveis de Angoff);
Não se pode estabelecer a equivalência de provas que refletem diferentes níveis de dificuldades.
Segundo Lord, se as provas X e Y têm dificuldades diferentes, a relação entre seus escores verdadeiros é necessariamente não linear devido aos efeitos de piso e de teto. Se duas provas têm uma relação não linear é implausível que elas sejam igualmente fidedignas em todos os grupos de examinandos. Isso leva à conclusão incômoda de que, a rigor, não se podem tornar equivalentes os escores observados em provas de dificuldades diferentes. Todo esse panorama levou Lord a defender as vantagens teóricas dos modelos da
Teoria da Resposta ao Item em procedimentos que estabelecem a equivalência dos resultados de provas.
A Teoria da Resposta ao Item trata o problema da estimação da habilidade e conhecimento de um examinando de
forma essencialmente diferente: o enfoque das análises desvincula-se das provas (Teoria Clássica dos Testes) e concentra-se nos Itens;
se na Teoria Clássica dos Testes as estatísticas dos itens dependem da população dos examinandos e da prova à qual os itens pertencem,
na Teoria da Resposta ao Item cria-se o conceito de que os parâmetros dos itens, obtidos no processo estatístico de "calibração" dos parâmetros
de dificuldade, discriminação e acerto casual dos itens (Valle, R) são características próprias dos mesmos. Costuma-se considerar que a característica
de medição dos Itens, representados por seus parâmetros, são invariantes no tempo com algumas ressalvas, por exemplo: um item que aborde o conhecimento
sobre eclipses solares e lunares estará sujeito a variações de suas características de medição conforme o modismo, sobretudo quando um eclipse ocorre;
em casos como esses, a invariância dos parâmetros do item no tempo não deve ser considerada como verdadeira. Consideradas as ponderações anteriores,
uma característica fundamental, para a viabilidade de comparação da habilidade e conhecimento de examinandos submetidos a provas diferentes, é que a
Teoria da Resposta ao Item modela a probabilidade de acerto a um item, também conhecida como Curva Característica do Item, através de uma função não
linear do conhecimento dos examinandos. Essa característica da modelagem da Teoria da Resposta ao Item é de grande importância pois, desse modo,
é possível comparar o conhecimento dos examinandos submetidos a provas diferentes, sendo necessário apenas que as provas meçam as mesmas características;
essa propriedade é essencialmente útil para sistemas de avaliações, onde é possível submeter uma grande quantidade de tópicos de uma matéria em sala de aula
(útil para se ter um painel geral sobre o ensino de vários tópicos) com os alunos respondendo
a apenas um conjunto pequeno dos itens utilizados na avaliação
(útil para não tornar as provas excessivamente extensas).
|
|