Heuristische Evaluation
Allgemeines   Durchführung   Fallstudie   Severity Ratings   Problemcharakteristiken  

Heuristische Evaluation bedeutet grob, daß eine geringe Zahl von Gutachtern die Benutzerschnittstelle eines Produktes untersucht und überprüft, inwieweit diese mit bestimmten Usability Prinzipien (Heuristiken) übereinstimmt.

Ein Beispiel für diese Prinzipien ist die Liste von Heuristiken von Molich und Nielsen (1990):

  • Simple and natural dialogue
  • Speak the users' language
  • Minimize the users' memory load
  • Consistency
  • Feedback
  • Clearly marked exits
  • Shortcuts
  • Precise and constructive error messages
  • Prevent errors
  • Help and documentation
Heuristische Evaluation ist dem Ansatz des Discount Usability Engineering zuzuordnen. Ziel dieses Ansatzes ist, den Verantwortlichen keinen Anlaß mehr zu geben, auf Usability Überprüfungen zu verzichten, weil der zeitliche oder finanzielle Aufwand gescheut wird. Dafür sollen Prüfmethoden sorgen, die leicht erlernbar und schnell durchzuführen sind und geringe Kosten verursachen.

Die Heuristische Evaluation erfüllt diese Kriterien. Sie soll so die Hemmschwelle für einen tatsächlichen Einsatz der Usability Überprüfung senken.


Durchführung

Jeder einzelne Gutacher untersucht das Produkt alleine. Die Prüfer sollten ihre Ergebnisse einander erst mitteilen, nachdem alle Untersuchungen abgeschlossen worden sind. So wird eine unabhängige und unbeeinflußte Prüfung gewährleistet.

Die Prüfungen dauern in der Regel ein bis zwei Stunden. Dies ist aber von der Komplexität und der Funktionalität des Produktes abhängig.

Der obige Satz von Heuristiken ist nur einer von vielen Vorschlägen, der inzwischen gemacht worden ist. Entsprechend der jeweiligen Situation können die Heuristiken abgeänder und/oder ergänzt werden. Beispielsweise kann für eine spezielle Kategorie von Produkten über Benutzertetsts und anschließende Problemanalysen ein eigener (zusätzlicher) Satz von Usability Prinzipien formuliert werden.

Es wird allgemein empfohlen, im Rahmen der Evaluation mindestens zwei Untersuchungen vorzunehmen: Ein erster Durchgang soll ein Gefühl für den Informationsablauf und die Funktionalität des Produktes vermitteln. Im nächsten Schritt konzentriert sich die Prüfung auf einzelne Bedienelemente, ohne ihre Stellung im Gesamtbild aus den Augen zu verlieren.

Ist das Produkt sehr domänenspezifisch und der Prüfer in diesem Bereich Laie, kann es hilfreich sein, Aufgabenszenarien zu entwickeln. Diese beschreiben typische Arbeitsabläufe Schritt für Schritt. Ihre Gestaltung beruht auf eingehenden Aufgaben- und Arbeitsanalysen.

Ergebnis der Evaluation ist eine Liste von Usability Problemen. Jedes Problem sollte genau beschrieben werden und auf die Heuristik, die sie verletzt, Bezug nehmen.

Heuristische Evaluation liefert keine Lösungen für Usability Probleme oder Gütemaßstäbe für potentielle Re-Designs. Häufig liegt aber die Lösung eines Problems auf der Hand, sobald es erkannt worden ist. Fehlt beispielsweise bei einem Textverarbeitungsprogramm die Möglichkeit, Inhalte von einem Fenster in ein anderes zu kopieren, so ist eben diese Funktion zu ergänzen. Wie im Abschnitt Usabilty Inspection erwähnt, können in anschließenden Gruppendiskussionen mit Vertretern aller beteiligten Bereiche Lösungsvorschläge erarbeitet werden.

Hinsichtlich der Beziehung von Aufwand und Ertrag findet Nielsen (1994) ein Nutzen-Kosten-Verhältnis von 48 : 1. In dieser Studie betrug der finanzielle Aufwand $10 500, der Ertrag ca. $500 000. Auch andere Untersuchungen weisen der Heuristischen Evaluation eine hohe Rentabilität nach (Jeffries, 1991).

Jeder einzelne Prüfer erkennt ca. 35% aller Usability Probleme. Für jeden weiteren Prüfer steigt die Erkennungsrate wie folgt:



Zu diesem Ergebnis kommt Nielsen (1992) unter Berücksichtigung der Ergebnisse von sechs Studien. Daraus resultiert seine Empfehlung, zwischen drei und fünf Gutachter einzusetzen, die ca. 60-70% der Usability Probleme finden sollten.

Weitere Überlegungen zu Kosten und Nutzen von Usability Inspection Methoden finden sich im Abschnitt Usability - Kosten.


Fallstudie

Untersucht wurde das Interface eines Systems, das dem Benutzer einen einheitlichen Zugriff auf unterschiedliche Arten von großen Datenbeständen und verschiedene andere Informationen erlauben sollte. Das System sollte u. a. eingesetzt werden, wenn inkonsistente Datensätze identifiziert worden sind. Die Bedienung des Systems erforderte eine umfassende technische Ausbildung.

Die Untersuchung erfolgte anhand eines Prototyps, der nur einen Teil der Funktionalität des Endprodukts besaß. Aufgrund der komplexen Bedienung des Systems wurde ein spezielles Benutzungsszenario entworfen, dessen Schritte allerdings in unterschiedlicher Reihenfolge ausgeführt werden konnten.

Die Evaluation lief in folgenden Phasen ab:

Trainingssitzung
Da die 11 Prüfer Usability Spezialisten waren, konnte auf eine detaillierte Einführung der Heuristischen Evaluation verzichtet werden. Es wurden nur die zu verwendenden Heuristiken vorgestellt. Mehr Zeit wurde auf eine Beschreibung der und kurze Einführung in die Domäne verwendet.

Den Prüfern wurde das Aufgabenszenario beschrieben. Für jeden Schritt wurde erklärt, welche vorhergehenden Schritte und Informationen notwendig sind. Es wurde auch geschildert, wie ein Techniker die aktuelle Situation analysieren und welche Aktionen er als Resultat dieser Analyse ausführen würde.

Diese Phase dauerte ca. 90 Minuten.
Evaluation
Jeder Prüfer führte seine Untersuchung unabhängig durch. Die Ergebnisse wurden nicht während der laufenden Untersuchungen diskutiert. Den Prüfern wurden die einzelnen Schritte des Aufgabenszenarios zugänglich gemacht. Es sollten möglichst viele Usability Probleme identifiziert werden. Den Gutachtern wurden zwei Beobachter zur Seite gestellt, die die erkannten Probleme und die betroffene Heuristik protokollieren sollten. Ursprünglich sollte der Schwerdegrad der Probleme mitangegeben werden. Da diese Urteile aber die Evaluation störten, wurden sie auf das Ende der Untersuchung verschoben.
Abschlußsitzung
Nur drei der 11 Gutachter konnten den festgesetzten Termin wahrnehmen. Hauptzweck dieses Treffens war es, die generellen Aspekte des Interfaces, sowie mögliche Verbesserungn zu diskutieren. Diese wurden in einer Art Brainstorming zusammengestellt. Wie bereits oben angesprochen, so war auch hier die Lösung für viele Probleme offensichtlich.
Problembewertung (engl. Severity Ratings)
Auf die Kategorisierung und Gewichtung der gefundenen Probleme wird im Abschnitt Severity Ratings eingegangen.


Insgesamt konnten 40 Usability Probleme identifiziert werden. Jeder einzelne Gutachter erkannte davon ca. 12.

Um die Analyse auf eine solide Vergleichsgrundlage stellen zu können, wurde zusätzlich ein Benutzertest durchgeführt. Die Benutzer wurden in einem sog. Think-Aloud Protocol angehalten, ihre Gedanken zu verbalisieren, während sie das System bedienten. Für diesen Test wurde dasselbe, oben beschriebene Augabenszenario verwendet.

17 der 40 Probleme wurden in der Untersuchung bestätigt. Die Korrelation zwischen den Problembewertungen und der Zahl der Benutzer, die das Problem hatten, betrug 0,6. Unter Berücksichtigung der Tatsache, daß auf die Problembewertungen natürlich noch weitere Faktoren Einfluß haben (beispielsweise der zeitliche Einfluß auf die Bewältigung der Aufgabe), ist dieser Wert beachtlich.

23 Probleme konnten in der empirischen Untersuchung nicht bestätigt werden. Trotzdem können sie reale Beeinträchtigungen darstellen: Beispielsweise können bestimmte Schwierigkeiten relativ selten auftreten oder haben einen geringen (im empirischen Test kaum erkennbaren) Einfluß auf die Aufgabenbearbeitung. Genauere Aussagen zu diesen Problemen kann immer erst eine weitere Untersuchung liefern.


Severity Ratings

Die Problembewertung erfolgt üblicherweise entlang dreier Dimensionen:
  1. Problemhäufigkeit:  Tritt das Problem während vieler oder weniger Interaktionssituationen auf?
  2. Problemeinfluß:  In welchem Ausmaß wird die Aufgabenbewältigung beeinträchtigt?
  3. Persistenz:  Ist das Problem leicht zu umgehen, sobald es bekannt ist?
Diese Dimensionen werden der spezifischen Situation angepaßt und implizit gewichtet. Das Ergebnis ist eine Maßzahl, die die eigentliche Problembewertung darstellt. Nielsen (1994) schlägt folgende Skala vor:
  1. Ich stimme nicht zu, daß dies überhaupt ein Usability Problem ist.
  2. Nur ein kosmetisches Problem - braucht nicht behoben zu werden, solange keine zusätzliche Zeit zur Verfügung steht.
  3. Kleines Usability Problem - Behebung erhält geringe Priorotät.
  4. Großes Usability Problem - sollte behoben werden; hohe Priorität.
  5. Usability Katastrophe - sollte unbedingt behoben werden bevor Produkt eingeführt wird.
Eine weitere Beispielskala findet sich bei Lindgaard (1994).

Für kommerzielle Produkte ist neben der Problembewertung immer zu berücksichtigen, welchen Einfluß ein Bedienproblem auf die Marktakzeptanz ausübt.

Problembewertungen können nach der Untersuchung erhoben werden. Dazu werden häufig Fragebögen mit den Problembeschreibungen an alle Gutachter verschickt. Die eigentliche Erhebung sollte nicht länger als 30 Minuten dauern.

Obwohl anzunehmen sein könnte, daß die Gutachter selbst erkannte Probleme als schwerwiegender einschätzen als andere, besteht zwischen beiden Faktoren kein Zusammenhang (Nielsen, 1994). Außerdem konnte Nielsen (1992) zeigen, daß schwerwiegendere Probleme häufiger als andere identifiziert werden konnten.

Die Übereinstimmun der einzelnen Prüfer ist statistisch signifikant (Kendalls W = 0,31). Im Vergleich zu anderen Bewertungsmethoden ist die Inter-Rater-Reliabilität mit r = 0,24 relativ gering. Es empfiehlt sich, Problembewertungen von allen Prüfern zu erheben und dann zu mitteln; Bewertungen eines Gutachters sind meist nicht aussagekräftig.

Die Abhängigkeit der Reliabilität von der Anzahl der Gutachter illustriert das folgende Diagramm:



Problembewertungen sollen zum einen absolut darüber informieren, wie es um die Notwendigkeit von Produktänderungen steht. Zum anderen können sie verwendet werden, eine Prioritätenliste für solche Änderungen aufzustellen. Für einen Großteil der Fälle ist die Qualität der Bewertungen, die über drei bis vier Gutachter gemittelt werden, zufriedenstellend.


Problemcharakteristiken

Wenn die Probleme in die zwei Gruppen "klein" und "groß" aufgeteilt werden, so ist die Wahrscheinlichkeit, ein schwerwiegendes (großes) Problem zu entdecken 42%; verglichen mit 32% für ein kleines Problem.

Da die Mehrzahl der gefundenen Probleme (bei Nielsen (1994) ca. 72%) geringfügiger Natur sind, ist eine Gewichtung der Probleme besonders wichtig. Sie dient quasi als Vergrößerungsglas für schwerwiegende Interface-Mängel, die zuerst beseitigt werden sollten.

Kleinere Probleme (wie der inkonsistente Einsatz von serivenloser und Serivschrift) werden leichter durch Heuristische Evaluation identifiziert, als über empirische Tests, die dafür sehr aufwendig gestaltet werden müßten.

Insbesondere bei sehr domänenspezifischen Produkten gibt es aber auch Vorteile für Benutzertests. Von daher empfiehlt sich ein kombinierter Einsatz beider Methoden. Ein gebräuchliches Vorgehen wäre eine Heuristische Evaluation, um das Interface von offensichtlichen Schwachstellen zu "reinigen" und dann ein empirischer Usability Test, der sich auf eventuell verbliebene Bedienschwächen konzentriert.


Der nächste Abschnitt beschreibt die neben der Heuristischen Evaluation verbreitetste Usability Inspection Technik: den Cognitive Walkthrough.
Usability
Usability - Vorbemerkungen
Usability - Definition
Usability Engineering
Usability Engineering - Ziele
Usability Tests
Usability - Kosten
Usability Inspection
Heuristische Evaluation
Cognitive Walkthrough
Literatur


weiter: Cognitive Walkthrough
zurück: Usability Inspection