It’s all about voice: Alexa brüllt jetzt wie ein Löwe.

Aus einem Experiment ist ein Skill geworden, der es innerhalb weniger Wochen in die „Top aktivierten Skills“ der Kategorie „Bildung/Nachschlagewerke“ (Update!) aller Kategorien geschafft hat.

Auf der Suche nach einer Idee, wie wir die SSML Features von Amazon Alexa ausgiebiger testen können, ist unser Tiergeräusche Skill entstanden.

Eine der Funktionen von SSML (Speech Synthesis Markup Language) erweckt den Skill und in Alexa im wahrsten Sinne das Tier zum Leben. Mit dem <audio> Tag unterstützt Alexa das Einbinden von Audio-Dateien in die Antwort, die an den Nutzer zurückgegeben wird.

Alexa kennt also dank unseres Tiergeräusche Skills nun die individuellen Laute von mehr als 20 Tieren. Technisch haben wir den Skill vielleicht etwas over-engineered, allerdings lässt sich mit einem echten Projekt das technische Setup eines Alexa Skills effizienter optimieren.

Die Tiere, inklusive der Sound-Dateien und Bilder für die Cards (der visuelle Log in der Alexa App, wenn Alexa auf eine Anfrage antwortet), werden in einem eigenen Content Management System online verwaltet. Das ermöglicht ohne Eingriff in den Source Code kontinuierlich weitere Tiere hinzuzufügen. Die Funktion des Skills haben wir mit Lambda umgesetzt.

Das Hosting der Sound-Dateien und Bilder lösen wir über Amazon S3. Bei der Bereitstellung der Sound-Dateien ist wichtig, dass diese im korrekten Format vorliegen. Dank der guten Dokumentation im Entwicklerportal von Amazon ist eine Anleitung zur richtigen Codierung des Audio-Files schnell zu finden. Wir haben uns dazu eine kleine Cloud-Anwendung programmiert, die automatisiert unsere Sound-Dateien für uns Alexa-freundlich codiert und in unserem S3 Bucket ablegt.

Nun kann es also losgehen: Tiere da, Sound-Dateien da, Bilder für die Cards da. Die Nutzer können nach Aktivierung des Skills beispielsweise fragen „Wie macht die Kuh?“. Alexa antwortet mit „Die Kuh macht …. “ und spielt dabei die Audio-Datei des entsprechenden Tieres ab.

Workflow Tiergeräusche Skill

Wenn die API das Tier nicht bereitstellen kann, z.B. wenn das angefragte Tier nicht in unserer Datenbank vorhanden ist, geben wir an den Nutzer die Antwort „Dieses Tier kenne ich leider nicht“ zurück. Damit uns die Anfragen nicht entgehen, haben wir einen Slack-Channel eingerichtet, in dem diese Anfragen dank eines Webhook-Bots einlaufen. Mit diesen Nachrichten können wir die Auswahl an verfügbaren Tiergeräuschen stetig ausbauen.

Die Herausforderung bei der Umsetzung: Das Voice Interaction Model. Schon bei einem derart simplen Skill ist es unerwartet komplex gewesen, im Vorfeld zu antizipieren, wie die Nutzer den Skill verwenden würden. Zu Beginn haben wir es uns leicht gemacht und (unbewusst) nur die Anfragen zugelassen, die die korrekte Verwendung des bestimmten Artikels beinhalteten. „Wie macht der Löwe?“ war OK. „Wie macht das Löwe?“ -> nicht OK. „Wie macht ein Löwe?“ -> nicht OK.

Da Alexa-Entwickler kontinuierlich neue Versionen ihrer Funktion veröffentlichen dürfen, konnten wir diesen Fehler schnell beheben. Wir lassen nun bestimmte und unbestimmte Artikel zu. Die falsche Verwendung des Artikels ist zwar schmerzhaft, aber auch in Ordnung. 🙂 Die Antwort von Alexa hingegen ist immer gleich und sieht selbstverständlich die Verwendung des korrekten Artikels vor.

What’s next? Wir haben den Aufwand bei der Gestaltung der Cards in Grenzen gehalten. Wir möchten diese überarbeiten und überlegen nun, mit kurzen Steckbriefen der Tiere einen weiteren Mehrwert zu entwickeln.

Und jetzt darf getestet werden. Hier ist der Link zum Tiergeräusche Skill. Wir wünschen tierisch viel Spaß! 😉

Landing Page und Werbung für Rette Mich [Alexa Skill to be]

Neben der Detailplanung und dem Projekt-Setup wollen wir schon frühzeitig versuchen, Tester für unseren Skill aus der Zielgruppe der „Silver Agers“ zu gewinnen. Dafür haben wir eine kleine Landing Page zusammengeschustert und veröffentlicht. Auf der Webseite wird der Service kurz erklärt, über ein Anmeldeformular können sich Interessenten dann für einen Test anmelden.

Zudem haben wir eine Printanzeige in einem lokalen Magazin geschaltet, um die Zielgruppe auf einem altbewährten Weg erreichen zu können. Online-Werbung folgt natürlich, da auch wir wissen, dass die Quote der Online-Omas und -Opas in den vergangenen Jahren drastisch angestiegen ist. Die Internetseite soll dabei helfen, möglichen Gesprächspartnern aus der Branche das Produkt vorab zu präsentieren und diesen einen ersten Eindruck von dessen Potenzial zu vermitteln.

Im Hintergrund arbeiten wir gerade an der MVP Definition, dem Projekt-Setup und einem ersten Wurf des Voice User Interfaces. Außerdem haben wir Kontakt zu verschiedenen Pflegediensten und Unternehmen aufgenommen, die mit der Pflege und Betreuung älterer Menschen betraut sind. Wir möchten damit die Zielgruppe besser verstehen lernen und möglichst auch Statistiken als Grundlage einer wirtschaftlichen Betrachtung unserer Idee heranziehen. Denn wir sind uns sicher, dass die Idee das MVP Stadium überleben wird.

Der „Skill to be“ gedeiht…

In 80 Tagen die Welt ein bisschen sicherer machen [Alexa Skill to be]

Nach dem überraschenden Erfolg beim Hackathon hat unsere Idee sich nicht nur am selbigen Abend in der Bar der Wohngemeinschaft in Köln weiterentwickelt. Vor Ort hatten wir noch die Möglichkeit, mit dem Senior Solutions Architect von Amazon, Kay Lerch, über unseren Ansatz zu diskutieren.

Am nächsten Tag haben wir uns für mehrere Stunden eingeschlossen und überlegt, wie wir konkret weitermachen wollen.

Wir haben uns dazu entschieden, die Idee weiterzuverfolgen und in den vergangenen Tagen die Bausteine eines möglichst schlanken Projektplans zusammengetragen. Darüber hinaus haben wir unseren Rette Mich Skill vom Hackathon nochmal von Grund auf neu konzipiert und mit einer ansehnlichen Code-Struktur versehen.

Mit dieser Basis war es möglich, die folgenden nächsten Schritte zu definieren:

Feinschliff der Minimal Viable Product Definition für den Rette Mich Skill (Arbeitstitel)
Projekt-Zeitplan mit Meilenstein-Definition
Projekt-Setup mit Amazon Lambda, Amazon S3, Amazon Polly, DynamoDB, Amazon CodeStar (tbd) und Debugging über einen Slackbot
Erstellung einer kleinen Landing-Page, um Beta-Tester für unseren Skill schon frühzeitig zu akquirieren
Rechtliche Beratung zur Umsetzbarkeit, Haftung und Datenschutz
Fachliche Beratung von Unternehmen und Personen aus Branche und Zielgruppen

Last not least, das Herzstück des Skills:

das Voice User Interface, mit dem die Nutzung eines Skills entweder intuitiv oder ein Desaster wird. Als Grundlage dazu dienen Personas, die wir aus Insights aus der Zielgruppe erstellen wollen, um so Alexa bestmöglich in den Gesprächspartner zu verwandeln, den die (Haupt-)Zielgruppe erwartet.

Und das alles in 80 Tagen. Here we go!

Alexa Hackathon: Stimmen im Web

Wir freuen uns über die Erwähnung im Kölner Stadtanzeiger, der einen kurzen Nachbericht zum Alexa Hackathon erstellt hat, hier geht’s zum Artikel: Lehrstunde für Amazons Sprachassistent Alexa

In unserem Beitrag zum Hackathon ist ein detaillierter Rückblick auf das Event zu finden!

Titelbild von Philipp Remke

Amazon Alexa Hackathon: Safety first

Wenn Du denkst, dass es ein Abend wie jeder andere werden wird, liegst Du damit meistens falsch. Noch besser geht es aus, wenn Du eigentlich überhaupt keine Erwartungen hast. Es sind genau diese Abende, an die Du Dich lange Zeit erinnerst und bei vielen Wiedersehen sinnierst. Vorher weißt Du das nicht – und das ist auch wirklich gut so.

Dieses Gefühl haben wir, wenn wir auf den Tag und Abend des Alexa Hackathons in Köln am 27. April in der Wohngemeinschaft Köln zurückblicken. Organisiert und koordiniert vom hack.institute und mobile.cologne. Nach dem Hackathon rund um Android Wearables haben sie das neue Wunderkistchen von Amazon in den Mittelpunkt gestellt. Mehr oder weniger zufällig fiel das Event perfekt in unseren Terminkalender, da wir ein Treffen in Köln ohnehin geplant hatten.

Wie auch andere Teilnehmer hatten wir uns vor dem Event Gedanken über ein Produkt oder einen Service gemacht, welcher im sportlichen Rahmen von 4 Stunden zum Leben erweckt werden kann. Schnell merkten wir, dass die Liste immer kürzer wird, als wir uns selbst zwei wesentliche Einschränkungen bei der Ideenfindung gaben: Löse ein Problem und nutze dabei das Alleinstellungsmerkmal der Technologie maximal aus.

Nach 2 Espressi haben wir uns gedanklich von der einfallslosesten Zielgruppe – uns selbst – entfernen können und sind auf eine sehr wichtige andere Zielgruppe gestoßen, die unseren auferlegten Regeln gerecht wird und dabei ohnehin höchstinteressant ist: Senioren und die, die bald Senioren werden.

Die Idee hatten wir zu diesem Zeitpunkt nur kurz angerissen und es folgendermaßen auf den Punkt gebracht: Wir ergänzen den bekannten Hausnotruf-Dienst und helfen Menschen, die sich im Haushalt verletzt haben und keine oder eine nur sehr eingeschränkte Möglichkeit mehr haben, sich zu bewegen.

Mit unserer Shortlist der Ideen für den Hackathon haben wir uns in Köln getroffen (zwei Alternativen hatten wir im Gepäck, falls jemand die gleiche Idee haben sollte) und sind ohne Erwartungen in den Abend gestartet. Vor Ort haben wir noch Franziska in unser Team aufgenommen und zu dritt an der Realisierung der Idee gearbeitet und ein MVP auf die Beine gestellt. Überraschenderweise hat keines der rund 20 Mitstreiter-Teams einen ähnlichen Ansatz verfolgt (was uns natürlich gefreut hat).

„Wenn Du denkst, dass es ein Abend wie jeder andere werden wird, liegst Du damit meistens falsch.“

Vier Stunden später wurden um Punkt 21:00 Uhr die Laptops zugeklappt. Nach vielen guten Pitches der anderen Teams am späten Abend haben wir unseren „Rette Mich“-Skill vor rund 70 Personen und einer vierköpfigen Jury präsentieren dürfen und haben gewonnen. Wir haben mit Aktivierung unseres Skills einen Webservice angesprochen, der einen Notfallkontakt per Anruf und SMS kontaktiert. Außerdem war Alexa in der Lage, die lebenswichtigen Körperfunktionen beim Benutzer abzufragen und die Antworten per SMS zu verschicken. Sowohl die Jury als auch alle Teilnehmer haben uns auf den 1. Platz gewählt.

Wir haben mit der Idee die unschlagbare Stärke von Alexa genutzt, um genau dann zu helfen, wenn der Nutzer keine andere Möglichkeit mehr hat, als sich mit seiner Stimme bemerkbar zu machen. Im Notfall kann diese aussichtslose Situation sehr tragisch enden. Hinzu kommt, dass wir auf einen Kommunikationskanal vertrauen, der nicht nur heute wieder für viele Buzzwords wie Voice Control, Voice Assistant, Natural Language Understanding […] sorgt, sondern der auch einer der ältesten der Menschheit ist: Sprache durch Benutzung der Stimme.

Gleichermaßen beschränkt sich diese Art von Service als positiver Nebeneffekt nicht nur auf die von uns in den Fokus gerückte Zielgruppe. Auch alleinstehende Menschen oder Personen mit einem hohen Sicherheitsbedürfnis gewinnen dabei. Die konzeptionelle Erarbeitung des Skills (vor allem das Voice Interface Design) muss sich aber auf die Zielgruppe ausrichten, die im Zweifel versuchen wird, den unvorstellbarsten Weg zur Aktivierung des Services zu gehen. Dass wir, die mit Nokia 3310 in der Hosentasche aufgewachsen sind, wie selbstverständlich auch damit umgehen werden können oder alternative Zugänge zum System erschließen können, ist Nebensache.

Im Anschluss an diesen Abend, als glücklicher Gewinner des Hackathons, haben wir uns gedacht, dass dies vielleicht einfach unser kleiner geheimer Proof Of Idea war. Nicht nur für die Entwicklung eines smarten Skills für Amazons Alexa, sondern auch für etwas anderes, was uns sehr am Herzen liegt: Mehrwert zu schaffen, durch Alltagsverbesserer oder Produkte, die genau dann, wenn man sie braucht, genau das tun, was sie sollen.

Gehen wir es an!

Nachtrag: Hier der Facebook-Livestream des hack.institutes, in dem sie die Pitches an dem Abend des Hackathons aufgezeichnet haben. Unsere Präsentation ist bei Minute 21:00.