Die Reliabilität ist ein mathematisch zu bestimmendes Gütekriterium, das eine Aussage über die Genauigkeit verschiedener Testverfahren erlaubt - die Reliabilität bestimmt also, wie genau ein bestimmter Test das misst, wozu er entwickelt worden ist. In Psychiatrie und Psychologie können solche Testverfahren beispielsweise verschiedene Fragebögen zur Befindlichkeit von Personen sein. Andere mögliche Testverfahren sind Intelligenz- oder Persönlichkeitstests, die der Erstellung von Diagnosen und als Grundlage für die Wahl effektiver Therapien dienen können.
Eine ausreichende Reliabilität, also Testgenauigkeit, ist ein wichtiges Kriterium für entwickelte Testverfahren, um wissenschaftlich anerkannt zu werden und so auch in der Praxis Anwendung zu finden. Bei sogenannten standardisierten, anerkannten Testverfahren kann ein Diagnostiker vor Durchführung eines Tests in der Regel einem zum Test gehörigen Handbuch entnehmen, wie reliabel (also verlässlich) dieser ist.
Wichtig zu betonen ist, dass die Reliabilität lediglich eine Aussage über die mathematische Verlässlichkeit (Stimmigkeit) eines Tests macht - damit ist noch keine Aussage über die inhaltliche Wertigkeit eines Tests gemacht (ob ein Test also tatsächlich das misst, was er zu messen angibt - wie beispielsweise Intelligenz). Für eine inhaltliche Beurteilung der Eignung eines Testverfahrens ist ein weiteres Gütekriterium verantwortlich - das der Validität (der Wertigkeit).
Die Reliabilität eines Testverfahrens kann nun auf verschiedene Weisen mathematisch bestimmt werden. Welche Methoden für ein Testverfahren sinnvoll sind, bestimmen Wissenschaftler unter anderem aufgrund der Struktur eines Tests. Eine dieser Methoden ist die sogenannte Retest-Reliabilität: Ein Test wird bei Personen wiederholt durchgeführt, um die Ergebnisse vergleichen zu können. Eine weitere Möglichkeit ist unter anderem die Durchführung sogenannter Paralleltests: Zwei sehr ähnliche Testversionen werden bei jeweils denselben Personen angewandt, um auch hier die Ergebnisse zu vergleichen. Da allerdings recht selten zwei fast einander entsprechende Tests existieren, kann diese zweite Möglichkeit nur selten Anwendung finden.