真のハンズフリーコンピューティングを設計するための4つの重要な要素と、拡張現実の未来にとって設計が重要である理由
ハンズフリーコンピューティングという用語は 周りをバンディ の聖杯として何年もの間 ウェアラブルコンピューティング。しかし、真に機能するハンズフリーコンピュータを作ることは、公園を散歩することではありません。
私たちは以前、音声認識を使用したことがあります。ノイズがほとんどない手付かずの環境では、ユーザーが期待されるコマンドを発行した場合(およびすべての音節を発音した場合)、音声は正常に機能します。ただし、大音量の環境では、次のようなおなじみの応答が得られます。
「申し訳ありませんが、私はそれを理解していませんでした。もう一度やり直していただけませんか?」
しかし、バックアップしましょう…とにかく、本当にハンズフリーコンピューティングとは何ですか?
モバイルコンピューティングの世界では、真のハンズフリーコンピューティングとは、ボタンに物理的に触れたり、指で画面をスワイプしたり、コンピューターのカメラの前で必死に手を振ったりすることなく、コンピューター全体を操作できることを意味します(この場合)ジェスチャ入力デバイスの)。
したがって、真にハンズフリーのコンピューティングには、少なくとも1つの対話モードまたはモダリティ、通常は音声技術または視線追跡が必要です。アイトラッキング できる 動作しますが、完全なコンピューティング環境を駆動するには制限が多すぎます。
音声技術は本当の答えですが、それは真のハンズフリーコンピューティングのためのソリューションの一部にすぎません。
産業環境でハンズフリーコンピューティングが必要な理由
多くの企業および産業のお客様にとって、真のハンズフリーコンピューティングは新しいビジネス要件になり、新たに与えられたものです。
労働者は、データと通信の支援を必要としている間、グリップと安全のために手袋を着用し、重い道具を運んだり、腕や手で行動を起こしたりします。接続された産業労働者は、デバイスを制御するために手や指を使用することを期待されるべきではありません。
作業員が風力タービンタワーの途中、またはトンネルの途中で検査またはQAを行うことを想像してみてください。
はしごやプラットフォームのバランスを維持するには、手を使用する必要があります。これは、情報を得るためにコンピューターのディスプレイにアクセスするよりも重要です。次に、厚い保護手袋を着用している人がいます。タッチスクリーンは通常応答できず、ボタン自体を正確に押すにはかなり大きくする必要があります。
最後に、作業者はツールを手に持って、その場で情報にアクセスする必要があります。ツールを再び拾う前に、画面と対話するようにツールを設定したいのは誰ですか?
業界向けの真のハンズフリーコンピューティングを設計するための4つの重要な要素は次のとおりです。
音声認識がすべての環境で役立つようになる前に克服しなければならない4つの課題があります。
良いマイク
主要なインターフェイスとしてスピーチに依存する場合は、本当に優れたマイクと、ヘッドセット全体に役立つ数のマイクを用意することをお勧めします。私たちの RealWear 頑丈なウェアラブルコンピュータは現在、ユーザーの頭の周りの戦略的な場所に配置された4つのマイクのアレイを使用しています。これにより、ユーザーの声と、重要なことに、周囲のノイズも聞こえるようになります。
私たちが克服した課題の1つは、マイクの周りで比類のないレベルの製造の一貫性を達成することです。つまり、すべてのデバイスのすべてのマイクは他のすべてのマイクと同じように動作し、デバイス間で同じ動作をするように組み立てられ、テストされます。デバイスが機能するためには音声が非常に重要であるため、この製造の一貫性を確保するためにさらに上を行き、そうすることで、工場がこのタスクをサポートするための重要なIPを開発しました。
ノイズリダクション/音声増幅
一貫して良好なレベルのオーディオデータ取得が保証されたので、これを最新世代のノイズリダクションおよび音声増幅アルゴリズムにフィードして、周囲の不要なサウンドを取り除くことができます。さまざまなアルゴリズムを採用しており、ノイズの種類や環境に基づいて常にアルゴリズムを切り替えています。一部のアルゴリズムはビームフォーミングです。ノイズの除去に焦点を当てている人もいます。ディープラーニングAIを使用するものもあります。その他は、人間の音声信号の抽出を専門としています。これらのアルゴリズムはすべて微妙に異なりますが、適切なタイミングで適切な条件下で使用すると、最もクリーンで最も聞こえる信号を生成できます。
インターネット接続を必要としない音声認識
高品質のマイクと適切に設計されたノイズリダクションのおかげで、クリーンな音声信号を音声認識装置に送ることができ、これらの信号にはユーザーのコマンドしか含まれていないと確信しています。現在利用可能な最も洗練された音声認識エンジンの1つを利用しており、インターネットに接続していなくても機能します。私たちの音声システムは、40以上の言語で完全にオフラインで動作します。
設計上、RealWearのシステムは非常に応答性が高く、コマンドが発行されてから200ミリ秒以内にユーザーの発言を理解します。これは基本的に、ユーザーが何かを言ったときに即座にフィードバックをユーザーに提供することです。
また、ノイズリダクションのおかげで、当社の高速応答音声認識は、100dBに近いノイズレベルで、最も過酷な産業環境でも機能します。
ソフトウェア– 音声認識をどのように使用してアプリケーションを駆動しますか?
マイク、ノイズリダクション、音声認識が機能している場合でも、対処する必要のある非常に重要な部分があります。音声認識を使用してアプリを操作するにはどうすればよいですか。
」確かに、SDKを提供して、すべてのアプリケーションをハンズフリーで完全に書き直すように依頼することはありません。?」
答えは大きな「いいえ」です。このすべての作業を完了し、音声および音声テクノロジーをAndroidオペレーティングシステムに組み込みました。あなたがする必要があるのは、通常のタッチの場合と同じようにAndroidアプリケーションを作成することです(先に進み、ボタン、チェックボックス、およびあらゆる種類のコントロールウィジェットを画面に配置します)。アプリがHMT-1ヘッドセットで実行されると、自動的に音声が有効になります。これで、ボタンを押す必要がなくなります。ボタンの名前を言うだけでアクティブになります。すべて無料–追加のプログラミングは必要ありません。
(さらに、繰り返す必要のあるウェイクアップワードはありません。「HeySiri」、「OK、Google」、「Alexa」はありません。HMT-1画面の内容を言ってください。いつでも好きなときに。)
まとめ
要約すると、誰かが本当にハンズフリーのオペレーティングシステムについて話すときは注意してください。自問してみてください–それは本当にハンズフリーですか? OS全体を音声で駆動できますか、それとも単一のアプリですか?高ノイズ環境で動作しますか?最後に、音声インターフェイスを処理するために、SDKを使用してアプリを書き直す必要がありますか?これらの要件を実際に満たす製品が非常に少ないことに驚かれることでしょう。