SLN-SVUI-IOTターンキー・ソリューションの導入
1. アブストラクト
NXP SLN-SVUI-IOT EdgeReadyソリューションは、ローカルおよびオンラインの音声制御に対応し、統合型音声インテリジェント・テクノロジー(VIT)を搭載したi.MX RT106VクロスオーバーMCUを活用して、タッチレスアプリケーション向けの音声ユーザーインターフェースを提供します。
この超小型フォームファクターの生産準備が整ったハードウェア設計には、FreeRTOS上で動作する完全に統合されたソフトウェアが付属しており、すぐに評価や概念実証の開発を行うことができます。このターンキーソリューションは、市場投入までの時間、リスク、開発の手間を最小限に抑え、OEMが産業用およびIoT製品に音声機能を簡単に追加できるようにします。

図1
2 主な特長
低コスト
- Arm Cortex-M7 – 600 MHz + 1 MB SRAM
- 外部DSPやウェイクワードエンジンなし、統合コーデック
- ホストMCUを置き換え(アドオンソリューションではありません)
- MPU上でのLinuxベースの実装コストの半分以下
- SDRAM、eMMCフラッシュ、PMICを排除し、4層基板を使用
最速かつ最も簡単な方法で、コンセプトから生産まで6か月以内
- 使い慣れたMCU+RTOSプラットフォーム(Linuxの学習曲線なし)
- ターンキーソリューション – ワンストップショップ – すべてのソフトウェアが含まれています
- システムインテグレーター不要、サードパーティとの契約も不要
- 音声やオーディオの専門知識不要 – 機械学習によるファーフィールドAFE
- 実績のあるフレーズスポッティング自動音声認識(ASR)エンジンを含む
- プラグアンドプレイ、すぐに使える体験
- AmazonのEcho Dotと同様のファーフィールド音声パフォーマンス
- 2つまたは3つのマイクサポート、180°または360°のファー・フィールドの実装
- 全世界での可用性とサポート
3. ローカル音声制御の対象アプリケーション
クラウド接続なしでハンズフリーのプライベート音声制御が必要な場所はどこでも
スマートホーム
- スマート照明、シェード、ファンの制御
- スマートスイッチ、調光器、プラグ、コンセント
- サーモスタット、ルームエアコン、除湿器・加湿器
- アラームパネル、ガラス破壊センサ、煙および一酸化炭素検出器
- セットトップボックス、ホームゲートウェイおよびルーター
- ガレージドアオープナーとアクセスパネル
- スマート玩具
スマート家電
- 大型家電(冷蔵庫、オーブン、洗濯機、乾燥機、コンロ、換気フード、ワインクーラーなど)
- カウンタートップ(電子レンジ、コーヒーメーカー、フードプロセッサー、マルチクッカーなど)
スマートビルディングと産業
- エレベーター
- 複数住戸用インターホンシステム
- 自動販売機
- 産業オートメーションとハンズフリーのプロセス制御

図2
4. 生産グレード、認定および資格を持つリファレンス・システム

図3
5. ハードウェアとソフトウェアの状況
SLN-SVUI-IOTハードウェアの主な特徴:
- 最大600MHz(デフォルト528MHz)Cortex-M7 MCUコア
- 1MBのオンチップRAM(512kB TCM)
- 複数のマイクロフォントポロジー:
– メインボードにPDMマイク2つ(デフォルトでは非アクティブ)
– 拡張ボードにPDMマイク2つ(デフォルトでは非アクティブ)
– 拡張ボードにI2Sマイク3つ(デフォルトでは非アクティブ)
- 3 Wモノラル・フィルターレス クラスDアンプ Wi-Fi/Bluetooth コンボチップ(顧客の必要に応じてOTAアップデートに使用することを想定)
- 一体型スピーカー
- GPIO拡張ヘッダ

図4

図5
SLN-SVUI-IOTソフトウェアの主な特徴:
- 顧客の実装に柔軟性を持たせる2段階のブートストラップとブートローダー
- 高保証ブート(HAB)を用いたセキュアブートフロー
- UART経由のオーバーザワイヤー(OTW)アップデート
- 製造/再プログラミングの自動化ツール
- ディープラーニングによる音声認識エンジン
- ファーフィールド自動音声認識(ASR)用のオーディオフロントエンド(AFE)

図6
SLN-SVUI-IOTキットは、NXPとそのパートナーが提供する包括的かつ無料の有効化スイートによってサポートされています。
- MCUXpresso開発ツール
- ハードウェア設計ファイル
- ローカル音声アプリケーションソフトウェアのソースコード
- ソフトウェアオーディオチューニングツール
- ドキュメント
- トレーニング資料
6. スマート音声UIテクノロジー
スマート音声UIの部品番号:
RT1062: ボイスシーカー(AECなし)+ VIT
RT106V: ボイスシーカー(AEC付き)+ VIT
RT106C: ボイスシーカー(AEC搭載)+ Cyberon DSMT
6.1 ボイスシーカー
低電力で常時オンのデバイス向けのマルチマイクロフォン・オーディオ・フロントエンド信号処理ソリューション。マルチマイクのビームフォーミング、ノイズ抑制、マルチチャネルのアコースティック・エコー・キャンセレーションを備えており、高性能なファーフィールド音声ピックアップが可能です。
主な機能/利点
- 柔軟なマイクロフォンの形状をサポート
- ビームフォーミング、ノイズリダクション、デリバーブレーション、ペイロードキャプチャ
- 到着方向の指示は、最大1度の間違いのない精度
- オプションのマルチチャネル音響エコーキャンセレーションが利用可能
- VoiceSpotおよびVITエンジンと簡単に統合可能
- MCUXpresso SDK に AEC を含まない標準イネーブルメント

図7
6.2 音声インテリジェント・テクノロジ
音声インテリジェント・テクノロジ(VIT)ウェイクワードおよび音声コマンド・エンジンを利用することで、開発者は音声UIを無料かつ手軽に使用することができます。お客様が定義したウェイクワードとコマンドを、無料のオンライン・ツールを使用して利用できるようになります。ライブラリおよび音声制御ソフトウェアパッケージはMCUXpresso SDKまたはLinux BSPを通じて提供されます。
このソフトウェア・パッケージは、ディープ・ラーニングの音声認識テクノロジをベースにしており、ウェイクワードと音声コマンドの包括的なソリューションを提供します。VITは、ファーフィールド操作をサポートするマルチマイク・オーディオ・フロントエンドであるVoiceSeekerで簡単に設定できます。VITウェイクワードおよび音声コマンドエンジンは、Arm® Cortex®-M7、M33、A-53、またはCadence Xtensa® HiFi 4およびFusion F1コアを含むいくつかのプラットフォームでロイヤリティフリーで利用可能です。
https://www.nxp.com/vit

図8
特長:
- VITは最先端のディープラーニングと音声認識技術に基づいています。
- VITは、関連するNXPプラットフォーム上で音声対応を可能にする完全なNXP IPで、顧客は無料で使用できます(バイナリライブラリが提供されます)。
- Text to Modelによるウェイクワード・モデルの生成(オーディオ・データベースが不要)
- Text to Modelを使用するカスタム・コマンド
- Text to Modelに利用可能な豊富なボキャブラリ
- 英語、中国語(北京語)、フランス語、ドイツ語、イタリア語、日本語、韓国語、スペイン語、トルコ語の言語サポート:vit.nxp.comで提供中
- 最大3つのウェイクワードを同時サポート
- 各モデルに対するコマンドの現在の制限は30です

図9
6.3 Cyberon DSMT
DSpotterモデリングツール(DSMT)は、顧客定義のウェイクワードとコマンドを使用してカスタマイズされたモデルを作成するためのユーザーフレンドリーなツールです。
注:このツールにはインターネット接続が必要です。

図10

図11
モデルを作成するには、以下の手順に従ってください。
あなたの資格情報でログインしてください。アクセスするには、local‑commands@nxp.com までお問い合わせください。メールには必ず次の詳細を明記してください。
7.Smart Voice UIソリューションの利点の概要

図12