Les évaluations basées sur des jugements humains font appel à des juges, invités à évaluer un corpus de textes générés et de textes rédigés par des humains, en leur attribuant une cote sur une échelle de notation. La première expérience de ce type a été menée en 1999 par Lester et Porter, qui avaient demandé à 8 experts d’un domaine d’attribuer une cotation à 15 textes en fonction de différents critères (qualité, cohérence, style d’écriture, contenu, organisation, exactitude). Certains textes étaient rédigés par des humains, d’autres générés par un logiciel, et les juges n’en connaissaient pas l’origine. Une variante de cette expérience consiste à montrer aux sujets différentes versions d’un même texte. Un autre type d’évaluation humaine porte sur le temps de lecture d’un texte.
Une évaluation humaine suppose de s’assurer que les sujets/juges soient indépendants, impartiaux et familiers du domaine d’application. Elle est plus coûteuse et plus lourde à organiser, contrairement aux évaluations métriques automatiques basées sur des corpus de textes, qui présentent l’avantage d’être indépendantes de la langue.
Des évaluations métriques automatiques peuvent donner lieu à d’excellents résultats, pour autant qu’elles soient corrélées par une évaluation humaine (de préférence provenant de sujets unilingues, pour de meilleurs résultats). Mais elles font l’objet de controverses, dans la mesure où les systèmes métriques ne sont pas en mesure d’évaluer des propriétés linguistiques importantes, telle que la structure de la langue.