こんにちは、
タイトルに述べたように、MCU の NPU はトランスベースのモデルをサポートできますか?公式サイトによれば、NPU はトランスフォーマー モデルをサポートできるとのことです。
圧縮、量子化、および flexspi 経由の外部 RAM を想定すると、小型のトランスフォーマー ベースのモデルをボードに搭載できます。CAN NPU は実際に推論を加速するために使用できますか?
例としては、GitHub - maxbbraun/llama4micro: マイクロコントローラ上で動作する「大規模」言語モデルが挙げられます。
CPU で実行する代わりに、モデルを NPU で実行できますか?
このようなユースケースを MCXN にどのように適応させることができますか?
こんにちは@TomC818
完全な「NPU 上の LLM」は、MCX ではまだサポートされているパスではありません。
LLM は動的シーケンス、KV キャッシュなどに依存しており、その多くは現在の eIQ Neutron TFLite オペレーション セットの範囲外です。
BR
ハリー