AI により家庭用ロボットが計画時間を半分に短縮

前の画像次の画像

新しい家庭用ロボットが家に配達され、あなたはロボットにコーヒーを入れてもらうように頼みます。模擬キッチンでの以前の練習でいくつかの基本的なスキルを知っていますが、蛇口をひねる、トイレを流す、小麦粉の容器を空にするなど、実行できるアクションが多すぎます。ただし、役立つ可能性のあるアクションは少数です。ロボットは、新しい状況においてどのような手順が賢明であるかをどのように判断するのでしょうか?

家庭用ロボットの問題解決能力を効率的に強化することを目的とした新しいシステムである PIGINet を使用する可能性があります。 MIT のコンピューターサイエンスおよび人工知能研究所 (CSAIL) の研究者は、機械学習を使用して、考えられるすべてのアクションを考慮したタスク計画の典型的な反復プロセスを削減しています。 PIGINet は、衝突のない要件を満たせないタスクプランを排除し、300 ～ 500 の問題のみでトレーニングした場合に計画時間を 50 ～ 80 パーセント削減します。

通常、ロボットはさまざまなタスクプランを試行し、実行可能な解決策が見つかるまで動作を繰り返し調整しますが、特に可動障害物や多関節障害物がある場合、これは非効率的で時間がかかる可能性があります。たとえば、調理後、すべてのソースをキャビネットに入れたいと思うかもしれません。その時点で世界がどのように見えるかに応じて、この問題には 2 から 8 のステップがかかる可能性があります。ロボットは複数のキャビネットのドアを開ける必要がありますか? それとも、スペースを作るためにキャビネット内に移動する必要がある障害物はありますか? ロボットの動作が煩わしいほど遅いことは望ましくありません。考えている間に夕食を焦げてしまったら、さらに悪いことになります。

家庭用ロボットは通常、あらかじめ定義されたレシピに従ってタスクを実行すると考えられていますが、これは多様な環境や変化する環境に必ずしも適しているとは限りません。では、PIGINet はどのようにしてこれらの事前定義されたルールを回避するのでしょうか? PIGINet は、「計画、イメージ、目標、初期事実」を取り込み、実行可能な動作計画を見つけるためにタスク計画を改良できる確率を予測するニューラルネットワークです。簡単に言うと、データシーケンスで動作するように設計された多用途の最先端モデルであるトランスエンコーダーを採用しています。この場合、入力シーケンスは、検討しているタスクプラン、環境の画像、初期状態と望ましい目標の記号エンコードに関する情報です。エンコーダーはタスクプラン、画像、テキストを組み合わせて、選択されたタスクプランの実現可能性に関する予測を生成します。

キッチンに物を置いたまま、チームは何百もの模擬環境を作成しました。それぞれに異なるレイアウトと、カウンター、冷蔵庫、キャビネット、シンク、調理鍋の間で物体を再配置する必要がある特定のタスクが含まれています。問題解決にかかる時間を測定することで、PIGINet を以前のアプローチと比較しました。正しい作業計画の 1 つは、冷蔵庫の左側のドアを開ける、鍋の蓋を外す、キャベツを鍋から冷蔵庫に移動する、ジャガイモを冷蔵庫に移動する、シンクから瓶を拾う、シンクに瓶を置く、瓶を拾う、などです。トマト、またはトマトを置きます。 PIGINet は、計画シーケンスが長く、トレーニングデータが少ない、単純なシナリオでは計画時間を 80%、より複雑なシナリオでは 20 ～ 50% 大幅に削減しました。

「PIGINet のようなシステムは、データ駆動型の手法の力を利用してよくあるケースを効率的に処理しますが、学習ベースの提案を検証して新しい問題を解決するために「第一原理」計画手法に頼ることもでき、両方の長所を提供します。 MIT 教授で CSAIL 主任研究員の Leslie Pack Kaelbling 氏は言います。PIGINet では入力シーケンスでマルチモーダル埋め込みを使用することで、複雑な幾何学的関係をより適切に表現し、理解することが可能になりました。画像データを使用することで、オブジェクトの 3D メッシュを知らなくてもモデルが空間配置やオブジェクトの構成を把握して正確な衝突チェックを行うことができ、さまざまな環境での迅速な意思決定が可能になりました。