Die 4 Schlüsselelemente für die Entwicklung eines wirklich freihändigen Computings und warum Design für die Zukunft der Augmented Reality wichtig ist
Der Begriff Freisprechen wurde herumgefummelt seit Jahren als Heiliger Gral von tragbarer Computer. Aber einen wirklich funktionierenden Freisprechcomputer zu bauen, ist kein Kinderspiel.
Wir alle haben schon einmal Spracherkennung verwendet. In einer unberührten Umgebung mit wenig Rauschen funktioniert die Sprache gut, wenn ein Benutzer die erwarteten Befehle ausgibt (und jede Silbe ausspricht). In lauteren Umgebungen erhalten Sie jedoch eine bekannte Reaktion wie folgt:
„Entschuldigung, das habe ich nicht verstanden. Kannst du es bitte noch einmal versuchen?"
Aber lassen Sie uns ein Backup machen ... was ist eigentlich Freisprech-Computing?
In der Welt des Mobile Computing bedeutet wirklich freihändiges Computing, dass Sie einen vollständigen Computer bedienen können, ohne dass Sie physisch Tasten berühren, Bildschirme mit den Fingern wischen oder sogar hektisch vor der Kamera des Computers winken müssen (im Fall von Gesteneingabegeräten).
Somit erfordert ein wirklich freihändiges Rechnen mindestens einen Interaktionsmodus oder eine Modalität, typischerweise Sprachtechnologie oder Eye-Tracking. Eye-Tracking kann Arbeit, aber es ist zu begrenzt, um eine vollständige Computerumgebung zu betreiben.
Die Sprachtechnologie ist die wahre Antwort, aber sie ist nur ein Teil der Lösung für wirklich freihändiges Computing.
Warum Freisprechen in industriellen Umgebungen erforderlich ist
Für viele unserer Unternehmens- und Industriekunden ist echtes Freisprechen zu einer neuen Geschäftsanforderung geworden und eine neue Selbstverständlichkeit.
Arbeiter tragen Handschuhe für Halt und Sicherheit, tragen schwere Werkzeuge oder führen Aktionen mit ihren Armen und Händen aus, während sie die Unterstützung von Daten und Kommunikation benötigen. Von vernetzten Industriearbeitern sollte jetzt nicht erwartet werden, dass sie ihre Hände oder Finger verwenden, um ein Gerät zu steuern.
Stellen Sie sich einen Arbeiter auf halber Höhe eines Windturbinenturms oder auf halbem Weg durch einen Tunnel zur Inspektion oder Qualitätssicherung vor.
Die Verwendung von Händen ist erforderlich, um das Gleichgewicht auf einer Leiter oder Plattform zu halten; Dies ist wichtiger als der Zugriff auf ein Computerdisplay für Informationen. Dann ist da noch die Person mit dicken Schutzhandschuhen; Touchscreens können normalerweise nicht reagieren, und die Tasten selbst müssen ziemlich groß sein, um genau getroffen zu werden.
Schließlich muss der Arbeiter Werkzeuge in den Händen halten und gleichzeitig auf Informationen vor Ort zugreifen. Wer möchte die Werkzeuge ablegen, um mit einem Bildschirm zu interagieren, bevor er die Werkzeuge wieder aufnimmt?
Hier sind die 4 Schlüsselelemente für die Entwicklung eines wirklich freihändigen Computings für die Industrie
Bevor die Spracherkennung in allen Umgebungen nützlich sein kann, müssen vier Herausforderungen gemeistert werden:
Gute Mikrofone
Wenn wir uns auf Sprache als unsere primäre Schnittstelle verlassen möchten, sollten wir wirklich gute Mikrofone haben und eine nützliche Anzahl davon in der Nähe unseres Headsets. Unsere RealWear Robuste tragbare Computer verwenden derzeit eine Reihe von vier Mikrofonen, die an strategischen Stellen um den Kopf des Benutzers herum platziert sind. Dadurch können die Stimme des Benutzers und vor allem auch die Umgebungsgeräusche gehört werden.
Eine der Herausforderungen, die wir gemeistert haben, besteht darin, ein unübertroffenes Maß an Fertigungskonsistenz rund um unsere Mikrofone zu erreichen. Das bedeutet, dass sich jedes Mikrofon in jedem Gerät genauso verhält wie jedes andere, und jedes wird zusammengebaut und getestet, um ein identisches Verhalten von Gerät zu Gerät zu gewährleisten. Da Sprache für die Funktion unseres Geräts so wichtig ist, haben wir alles getan, um diese Fertigungskonsistenz zu gewährleisten, und dabei bedeutendes geistiges Eigentum für die Fabriken entwickelt, um diese Aufgabe zu unterstützen.
Rauschunterdrückung / Sprachverstärkung
Jetzt, da uns ein konstant gutes Niveau der Audiodatenerfassung garantiert ist, können wir dies in die neueste Generation von Rauschunterdrückungs- und Sprachverstärkungsalgorithmen einspeisen, um die Umgebungsgeräusche auszusortieren. Wir verwenden eine Reihe verschiedener Algorithmen und wechseln ständig zwischen ihnen basierend auf den Geräuscharten und der Umgebung. Einige Algorithmen sind Strahlformung; einige konzentrieren sich auf das Entfernen von Rauschen; einige verwenden Deep-Learning-KI; und andere sind darauf spezialisiert, menschliche Sprachsignale zu extrahieren. Alle diese Algorithmen sind subtil unterschiedlich, aber wenn sie zur richtigen Zeit unter den richtigen Bedingungen verwendet werden, können sie das sauberste und hörbarste Signal erzeugen.
Spracherkennung ohne Internetverbindung
Dank hochwertiger Mikrofone und ausgereifter Rauschunterdrückung sind wir jetzt in der Lage, saubere Audiosignale in unseren Spracherkenner einzuspeisen, in der Gewissheit, dass diese Signale nur die Befehle des Benutzers enthalten. Wir verwenden eine der fortschrittlichsten Spracherkennungs-Engines, die heute verfügbar ist und ohne Internetverbindung funktioniert. Unser Sprachsystem funktioniert vollständig offline in mehr als 40 Sprachen.
Das System von RealWear ist von Natur aus extrem reaktionsschnell und versteht, was der Benutzer innerhalb von 200 Millisekunden nach der Ausgabe eines Befehls sagt. Das bedeutet im Wesentlichen, dem Benutzer sofortiges Feedback zu geben, wenn der Benutzer etwas sagt.
Und dank der Rauschunterdrückung funktioniert unsere reaktionsschnelle Spracherkennung selbst in der rauesten Industrieumgebung bei einem Geräuschpegel von bis zu 100 dB.
Software – Wie verwenden Sie die Spracherkennung, um eine Anwendung zu steuern?
Auch wenn Mikrofone, Geräuschunterdrückung und Spracherkennung im Spiel sind, gibt es noch einen sehr wichtigen Punkt, den wir ansprechen mussten: Wie nutzt man Spracherkennung, um eine App zu steuern?
”Sicherlich werden Sie uns kein SDK geben und uns bitten, alle unsere Anwendungen für die Freisprecheinrichtung komplett neu zu schreiben?"
Die Antwort ist ein großes „NEIN“. Wir haben all diese Arbeit erledigt und die Sprach- und Audiotechnologie in das Android-Betriebssystem eingebettet. Alles, was Sie tun müssen, ist, Ihre Android-Anwendung wie gewohnt für Touch zu schreiben (machen Sie weiter, setzen Sie Schaltflächen, Kontrollkästchen und alle Arten von Steuerungs-Widgets auf den Bildschirm). Sobald Ihre App auf unserem HMT-1-Headset ausgeführt wird, wird sie automatisch sprachaktiviert – jetzt müssen Sie die Taste nicht mehr drücken; Sagen Sie einfach den Namen der Schaltfläche, um sie zu aktivieren. Alles kostenlos – keine zusätzliche Programmierung erforderlich.
(Außerdem haben wir keine dieser Weckwörter, die Sie wiederholen müssen; es gibt kein "Hey Siri", "OK, Google" oder "Alexa". Sagen Sie einfach, was auf dem HMT-1-Bildschirm angezeigt wird, wann immer du willst.)
Einpacken
Zusammenfassend: Seien Sie vorsichtig, wenn jemand über sein wirklich freihändiges Betriebssystem spricht. Fragen Sie sich – ist es wirklich freihändig? Kann ich das gesamte Betriebssystem mit Sprache steuern oder ist es nur eine einzelne App? Kann es in Umgebungen mit hohem Geräuschpegel funktionieren? Muss ich schließlich meine App mit einem SDK neu schreiben, um die Sprachschnittstelle zu handhaben? Sie werden überrascht sein, wie wenige Angebote diese Anforderungen wirklich erfüllen.