Aus dem 169 Labs Maschinenraum: Wie es Quizduell auf Amazon Alexa geschafft hat!

Das neue Interface „Voice“ erfordert in vielerlei Hinsicht ein Umdenken – nicht nur in der Content-Erstellung, sondern auch in der Konzeption von User Experiences und dem Design von Schnittstellen.

Alexa Entwickler der Stunde – und nicht nur wir – leisten Pionierarbeit. Wir erinnern uns an die Anfänge der Smartphone-App-Entwicklung vor rund 10 Jahren und stellen auch heute fest: Viele Dinge werden zum allerersten Mal umgesetzt. Dabei helfen keine Stackoverflow-Tickets, keine Best Practices, keine Apps, die Inspiration bieten. Kopf in den Sand stecken oder durchziehen? Wir haben uns für die zweite Variante entschieden!

Mit Quizduell hat unsere Voice Assistant Agentur 169 Labs in Deutschland das erste Multiplayer-Spiel für Amazon Alexa entwickelt. Nutzer können nahtlos zwischen der mobilen App und dem Alexa Skill wechseln. Oft schon haben Entwickler für Alexa schon davon geträumt, dass Nutzer eine Interaktion auf einem Smartphone per Fingertipp beginnen und per Sprache weiterführen – der Begriff der Multimodalität ist das entsprechende Synonym.

Mit dem berühmten „Casual Game“ Quizduell haben wir uns an diesen Traum herangewagt und ermöglichen es den 36 Millionen Nutzern in Deutschland, ihre Freunde auch per Sprache herauszufordern. In anderen Projekten hatten wir bereits gelernt, dass Inhalte sprach-kompatibel werden müssen und nicht einfach 1:1 aus dem Web oder einer Mobile App übernommen werden können. Auch in unseren Workshops, in denen wir die Grundlagen der UX-Konzeption für Anwendungen für Sprachassistenten vermitteln, steht dieser Tipp an erster Stelle. Wir müssen einfach verstehen, dass Voice nicht nur ein weiterer Kanal ist, sondern ein völlig neues Ökosystem. Es erfordert neue Workflows, um Inhalte und Konzepte dialogfähig zu machen.

Bei der Umsetzung des Quizduell Skills sind wir an die natürlichen Grenzen der Übertragbarkeit von Screen-/Touch-UX auf Voice gestoßen.

Das Motto lautete: Das Sichtbare wird unsichtbar, darf aber nicht unbemerkt bleiben.

Bei der Entwicklung von Quizduell haben wir das gelernte Spielkonzept intensiv studiert und festgelegt, was davon per Sprache sinnvoll umsetzbar ist und an welchen Stellen wir Anpassungen vornehmen müssen. Dem Prinzip des Spiels mussten wir natürlich trotzdem treu bleiben, damit Nutzer es gleichermaßen über die Mobile App und den Alexa Skill spielen können.

 

Hier sind unsere 5 größten Learnings aus der Umsetzung des Quizduell Skills:

1) Transparenz über Auswahlmöglichkeiten

Zwar gibt es mittlerweile Echo Geräte mit Display, wie den Amazon Echo Show oder Echo Spot, dennoch sind rund 90% der Geräte im Markt ohne Bildschirm. Die goldene Regel heißt: Voice first. Das stellt Entwickler von Voice Apps vor eine große Herausforderung: Ohne den Nutzer zu blamieren oder zu übergehen müssen wir ihm möglichst viele Entscheidungen und Auswahlmöglichkeiten, im wahrsten Sinne des Wortes, „mundgerecht“ servieren. Das führte dazu, dass bei Quizduell auf Alexa der Funktionsumfang auf die Grundfunktionen beschränkt werden musste, da es ohne visuelle Anker aus Nutzersicht fast unmöglich ist, den Überblick zu behalten. Die User können aktuell nach erfolgreicher Verknüpfung ihres Accounts gegen beliebige Spieler und Freunde neue Spiele starten oder laufende Spiele fortführen. Das klingt zunächst recht simpel – reichte aber schon aus, um mehrere tausend Zeilen Code zu schreiben. Bei Start des Skills passieren im Hintergrund rund 10 Fallunterscheidungen, die sich darauf auswirken, was Alexa dem Nutzer dann neben einem „Hallo zurück!“ sagt. Entscheidend ist: Habe ich ein oder mehrere laufende Spiele? Bin ich dran oder nicht und wenn ja, bei wievielen Spielen und gegen wen? Habe ich eine oder mehrere offene Herausforderungen? Wer fordert mich heraus? Möchte ich ein neues Spiel gegen einen beliebigen Spieler oder Freund starten? Wenn es ein Freund sein soll, wer aus meiner Liste? Gegen wen davon kann ich überhaupt ein neues Spiel starten?

Diese gesamten Informationen (und noch mehr) haben Einfluss darauf, was Alexa dem Nutzer in der Willkommensnachricht sagt – und was nicht. Auf einem Smartphone-Screen zeigen wir alle Informationen einfach neben- und untereinander an – der Nutzer wird sich schon heraussuchen, was er braucht oder nutzen möchte.

2) Übergänge

Das dynamische Nachladen oder Zwischenspeichern von Daten muss im Voice Kontext in Millisekunden abgehandelt werden. Der Nutzer gibt eine richtige oder falsche Antwort, der Skill kommuniziert daraufhin mit einer API und muss sofort die nächste Interaktion anpreisen. Im mobilen Kontext hingegen können wir einen „Schließen“ oder „Zurück“-Button einfügen und die darauf folgende Ansicht erst einblenden, wenn alle Daten vollständig geladen sind (z.B. mit Lazy Loading). Auf Voice ist jede Schließen-, Beenden- oder Fortfahren-Interaktion eine weitere Frage, die den Nutzer im Zweifel mehrere Sekunden kostet und damit eine natürliche Frustrationsgrenze schneller erreichen lässt.

3) Eingabe bzw. Ausgabe von Spielernamen und Antwortmöglichkeiten

Bei Quizduell gibt es keine Konvention zur Benennung seines Spielernamens. Sonderzeichen, Emojis, Zahlen – alles ist erlaubt. Die Fragen beinhalten gelegentlich Fachbegriffe oder Wörter aus einer anderen Sprache. Alexas Aussprache dieser Wörter ist zum Teil noch nicht natürlich, die Eingabe dieser Begriffe ist aus Nutzersicht aktuell kaum möglich. Aus diesem Grund wurde die Spracheingabe von Nutzernamen nicht ermöglicht und während des Quiz können die Nutzer während des Duells nur mit A B C oder D antworten und nicht das Wort aus den Antwortmöglichkeiten zurückgeben. In einer Folgeversion des Skills könnte sich das ändern, die Qualitätssicherung von ca. 27.000 Fragen ist allerdings entsprechend aufwändig.

4) Temporär inaktive Funktionen oder Auswahlmöglichkeiten

UX-Konzepte für Screens bedienen sich .active, .hover, .visited, .disabled oder anderer Klassen, um Nutzern zu verdeutlichen, ob und was sie nun mit dieser Auswahlmöglichkeit tun oder nicht tun können. Auf Voice müssen wir diese hilfreichen Features alle unsichtbar umsetzen, ohne den Nutzer zu frustrieren. Ein Negativ-Beispiel wäre: Bei jedem Schritt bis ins Detail erläutern, welche Auswahlmöglichkeiten der User gerade hat und welche (temporär) nicht. Die Freundesliste im Skill, über die man neue Herausforderungen für eine Quizrunde versenden kann, ist ein gutes Beispiel dafür. Auf einem Screen graue ich einfach alle Nutzer aus, die ich nicht herausfordern kann. Lasse ich diese Namen im Voice Kontext einfach weg? Was ist, wenn ich aktuell keinen meiner Freunde herausfordern kann, weil ich gegen alle schon ein laufendes Spiel habe? Was ist, wenn ich mich eigentlich gar nicht an die kryptischen Nutzernamen meiner Freunde erinnere? Die größte „Herausforderung“ hatten vor allem wir bei der Umsetzung des Alexa Skills, diese und andere Dinge nutzerfreundlich zu gestalten.

5) Spielen ohne Nutzeraccount

Quizduell sah bis heute keine Option für Nutzer vor, die keinen Konto haben. Per Screen ist dieses Konto binnen Sekunden erstellt. Unser Anspruch lag darin, es potenziell jedem Alexa Nutzer zu ermöglichen, Quizduell zu nutzen. Dabei ist ein gänzlich neues Spielkonzept entstanden: Im „Trainingsmodus“ können Spieler täglich 10 neue Fragen beantworten und erfahren am Ende, wie gut sie sich gegen den Rest der Spieler geschlagen haben. Eine wichtige Erweiterung, um gänzlich ohne Medienbruch (Eingabe des Nutzernamen und Passworts über die Alexa Companion App) Nutzern eine Quizrunde zu ermöglichen.

Halten wir fest: Voice ist ein neues Ökosystem und erfordert ein Umdenken und eine Menge Kreativität.

Wir lernen mit dem Feedback der Nutzer dazu und verbessern die UX von Tag zu Tag. Der Launch in England und in den USA steht kurz bevor, insgesamt ist Quizduell in 16 Sprachen verfügbar.

Die Entwicklung von Quizduell für Amazon Alexa war Pionierarbeit: Die Nutzer können neben dem Smartphone nun auch in der Küche, auf der Couch, im Bad oder im Auto hands-free bei dem beliebten Quiz-Spiel gegen andere Spieler antreten. Alles, was sie dazu sagen müssen, ist: “Alexa, starte ein Quizduell!”

Wir haben wieder einen neuen Skill: Das Gesundarium

Time Out statt Burn Out: Mit dem 8 Wochen Entspannungsprogramm, welches auf Progressiver Muskelentspannung nach Jacobsen basiert, soll Kunden bei einem entspannten Start in den Tag oder einer entspannten Auszeit im Laufe des Tages helfen: Per Gesundarium Skill für Amazon Alexa oder als Online-Programm (Hier geht es zur Aktivierung des Skills).

Das Besondere an dem Skill ist, dass es über die kostenlose Testversion hinaus Premium Content gibt, der freigeschaltet werden kann. Monetarisierung von Voice Skills ist aktuell ein oft diskutiertes Thema – dieser Skill ist der erste deutschsprachige, der dieses Konzept umsetzt.

Um die Vollversion freizuschalten und Zugang zu den Premium-Inhalten zu erlangen, erwirbt man hier einen sechsstelligen Lizenzschlüssel. Danach startet man den Gesundarium Skill mit „Alexa, starte Gesundarium!“ und sagt „Vollversion freischalten“. Danach wird der Code per Sprache eingegeben.

Über PMR

Der Ansatz der PMR (progessive muscle relaxation) beruht erweitert auf der Wechselwirkung zwischen psychischen und muskulären Spannungszuständen. Die Methode wurde von dem Physiologen Edmund Jacobson entwickelt. Er erkannte bei seinen Studien, dass durch den Wechsel von muskulärer Anspannung und Entspannung der Muskeltonus erheblich unter das normale Niveau gesenkt werden kann und dass mit der Absenkung des Muskeltonus das Gefühl tiefer Entspannung erlebbar wird. Voraussetzung ist, dass der Übende lernt, den Unterschied zwischen beiden Zuständen zu differenzieren. Dabei kommt es jedoch nicht nur auf das muskuläre Tun an, sondern auf die Achtsamkeit, mit der wir unser Bewusstsein auf diesen Vorgang richten.

 

Neuer Wirtschafts-Skill für das Handelsblatt

In enger Zusammenarbeit mit der Tageszeitung Handelsblatt haben wir eine Voice App für Amazon Alexa entwickelt. Der Handelsblatt-Skill bietet dem Nutzer die Möglichkeit, Informationen zu Aktienwerten und Wirtschaftsnachrichten zu erhalten. Darüber hinaus gibt es nun eine Audio-Ausgabe des erfolgreichen Handelsblatt Morning Briefings, das ebenfalls über den Skill angehört werden kann.

Besonders für börsen interessierte Nutzer kann der Skill interessant sein, denn in der in der Kategorie „Aktienüberblick“ lässt sich erfahren, mit wie vielen Punkten der Dax aktuell notiert ist und welche Aktien – basierend auf dessen Kursänderung – die Tops und Flops des Tages sind. Es ist außerdem möglich, nach den Kursen und Kursänderungen bestimmter Aktien zu fragen. Möchte der Nutzer die Entwicklung mehrerer Aktien verfolgen, so hat er die Möglichkeit, diese zu seiner Favoritenliste hinzuzufügen. Mit dem Befehl: „Alexa, frage Handelsblatt nach meinen Favoriten“ gibt Alexa der Reihe nach den aktuellen Kurs und die Kursänderung zu jeder Aktie aus.

Der Handelsblatt Skill ist beispielhaft für das bedeutende Potenzial, welches Sprachassistenten für Zeitungsverlage bergen. Nachdem in den vergangenen Jahren ein zwar moderater, aber anhaltender Rückgang der Print-Auflagen notiert wurde – ein Trend, der bezeichnend ist für journalistische Inhalte – wird unterdessen in vielen Verlagen vermehrt auf den Wachstumstreiber digitales Geschäft gesetzt. Co-Gründer Tim Kahle bemerkt dazu: „Der Konsum von Nachrichten, Wissen und Informationen sind aktuell einer der Hauptanwendungsfälle von Voice Assistants, weltweit und auch in Deutschland. Die Aufbereitung der Nachrichten für die neue Plattform und die einfache Auffindbarkeit von Inhalten per Sprache müssen eine zentrale Rolle im Newsroom der Zukunft spielen.“

It’s all about voice: Alexa brüllt jetzt wie ein Löwe.

Aus einem Experiment ist ein Skill geworden, der es innerhalb weniger Wochen in die „Top aktivierten Skills“ der Kategorie „Bildung/Nachschlagewerke“ (Update!) aller Kategorien geschafft hat.

Auf der Suche nach einer Idee, wie wir die SSML Features von Amazon Alexa ausgiebiger testen können, ist unser Tiergeräusche Skill entstanden.

Eine der Funktionen von SSML (Speech Synthesis Markup Language) erweckt den Skill und in Alexa im wahrsten Sinne das Tier zum Leben. Mit dem <audio> Tag unterstützt Alexa das Einbinden von Audio-Dateien in die Antwort, die an den Nutzer zurückgegeben wird.

Alexa kennt also dank unseres Tiergeräusche Skills nun die individuellen Laute von mehr als 20 Tieren. Technisch haben wir den Skill vielleicht etwas over-engineered, allerdings lässt sich mit einem echten Projekt das technische Setup eines Alexa Skills effizienter optimieren.

Die Tiere, inklusive der Sound-Dateien und Bilder für die Cards (der visuelle Log in der Alexa App, wenn Alexa auf eine Anfrage antwortet), werden in einem eigenen Content Management System online verwaltet. Das ermöglicht ohne Eingriff in den Source Code kontinuierlich weitere Tiere hinzuzufügen. Die Funktion des Skills haben wir mit Lambda umgesetzt.

Das Hosting der Sound-Dateien und Bilder lösen wir über Amazon S3. Bei der Bereitstellung der Sound-Dateien ist wichtig, dass diese im korrekten Format vorliegen. Dank der guten Dokumentation im Entwicklerportal von Amazon ist eine Anleitung zur richtigen Codierung des Audio-Files schnell zu finden. Wir haben uns dazu eine kleine Cloud-Anwendung programmiert, die automatisiert unsere Sound-Dateien für uns Alexa-freundlich codiert und in unserem S3 Bucket ablegt.

Nun kann es also losgehen: Tiere da, Sound-Dateien da, Bilder für die Cards da. Die Nutzer können nach Aktivierung des Skills beispielsweise fragen „Wie macht die Kuh?“. Alexa antwortet mit „Die Kuh macht …. “ und spielt dabei die Audio-Datei des entsprechenden Tieres ab.

Workflow Tiergeräusche Skill

Wenn die API das Tier nicht bereitstellen kann, z.B. wenn das angefragte Tier nicht in unserer Datenbank vorhanden ist, geben wir an den Nutzer die Antwort „Dieses Tier kenne ich leider nicht“ zurück. Damit uns die Anfragen nicht entgehen, haben wir einen Slack-Channel eingerichtet, in dem diese Anfragen dank eines Webhook-Bots einlaufen. Mit diesen Nachrichten können wir die Auswahl an verfügbaren Tiergeräuschen stetig ausbauen.

Die Herausforderung bei der Umsetzung: Das Voice Interaction Model. Schon bei einem derart simplen Skill ist es unerwartet komplex gewesen, im Vorfeld zu antizipieren, wie die Nutzer den Skill verwenden würden. Zu Beginn haben wir es uns leicht gemacht und (unbewusst) nur die Anfragen zugelassen, die die korrekte Verwendung des bestimmten Artikels beinhalteten. „Wie macht der Löwe?“ war OK. „Wie macht das Löwe?“ -> nicht OK. „Wie macht ein Löwe?“ -> nicht OK.

Da Alexa-Entwickler kontinuierlich neue Versionen ihrer Funktion veröffentlichen dürfen, konnten wir diesen Fehler schnell beheben. Wir lassen nun bestimmte und unbestimmte Artikel zu. Die falsche Verwendung des Artikels ist zwar schmerzhaft, aber auch in Ordnung. 🙂 Die Antwort von Alexa hingegen ist immer gleich und sieht selbstverständlich die Verwendung des korrekten Artikels vor.

What’s next? Wir haben den Aufwand bei der Gestaltung der Cards in Grenzen gehalten. Wir möchten diese überarbeiten und überlegen nun, mit kurzen Steckbriefen der Tiere einen weiteren Mehrwert zu entwickeln.

Und jetzt darf getestet werden. Hier ist der Link zum Tiergeräusche Skill. Wir wünschen tierisch viel Spaß! 😉