Fast SAM 3D Body: 人型ロボットの制御のためのリアルタイムメッシュ復元

2026年03月17日 公開 | スペイン語から翻訳

単一のRGBカメラからの3Dボディメッシュの正確な回復は、デジタルヒューマノイドのアニメーションに不可欠ですが、現在の方法であるSAM 3D Bodyなどはインタラクティブなアプリケーションには遅すぎます。私たちはFast SAM 3D Bodyを提示します。再訓練を必要とせずに推論を再構築することで、リアルタイムの速度を実現する加速フレームワークです。依存関係を分離し、プルーニングを適用することで、特徴抽出の並列化と最適化されたデコードを可能にします。最も重要なのは、メッシュの反復調整を直接マッピングに置き換えることで、SMPLパラメータへの変換を10,000倍以上高速化します。これにより、初めてヒューマノイドのリアルタイムビジュアルテレオペレーションが可能になります。🚀

Diagrama de flujo que compara el pipeline lento de SAM 3D Body original con el pipeline acelerado de Fast SAM 3D Body, mostrando ganancias de velocidad.

技術的内訳: 並列化、プルーニング、直接マッピング ⚙️

加速の核心は3つの革新にあります。まず、元のプロセスの空間的な逐次依存関係を分離し、画像の複数のクロップからの特徴抽出を並列化します。第二に、トランスフォーマーのアーキテクチャを意識したプルーニングを適用して、デコードの遅延を劇的に削減します。ヒューマノイドアプリケーションにとって最も影響力のある第三の革新は、遅いメッシュの反復調整(最適化)を、エンコーダの特徴からSMPLパラメータへの直接フィードフォワードマッピングに置き換えることです。この直接変換はヒューマノイド制御フレームワークと互換性があり、その特定の段階を4桁以上のオーダーで加速し、LSPETなどのベンチマークで同等または優れた忠実度を維持します。

ヒューマノイドのアニメーションと制御の未来 🤖

この進歩は技術を超え、即時の実用的扉を開きます。単一のRGBストリームからリアルタイムでSMPLキネマティクスを取得する能力は、ベストやウェアラブルセンサーなしでヒューマノイドのテレオペレーションを可能にし、アニメーションのためのモーションキャプチャを大幅に簡素化します。また、強化学習のためのマニピュレーションポリシーの直接収集を可能にし、ヒューマノイドがビデオで人間の行動を観察して学習できます。Fast SAM 3D Bodyは、視覚的に制御され、私たちから自然に学習するインタラクティブでリアルなデジタルヒューマノイドのビジョンに近づけます。

Fast SAM 3D Bodyは、生産環境でのデジタルヒューマノイドのリアルタイム制御のためのモーションキャプチャにおける遅延と精度の制限をどのように克服できるでしょうか?

(PD: デジタルヒューマノイドの利点は、リギングについて決して文句を言わないことです。)