チームの新しい AI テクノロジーによりロボットの認識スキルが大幅に向上

テキサス大学ダラス校のインテリジェント・ロボティクスおよびビジョン研究室で、ロボットがバターのおもちゃのパッケージをテーブルの周りで動かします。押すたびに、ロボットはテキサス大学ダラス校のコンピューター科学者のチームが開発した新しいシステムを通じて物体を認識することを学習します。

新しいシステムでは、ロボットが一連の画像が収集されるまでオブジェクトを複数回押すことができます。これにより、システムはロボットがオブジェクトを認識するまでシーケンス内のすべてのオブジェクトをセグメント化することができます。これまでのアプローチは、ロボットによる 1 回の押しまたは掴みに依存してオブジェクトを「学習」していました。

同チームは、7月10日から14日まで韓国の大邱で開催された「ロボット工学:科学とシステム」カンファレンスで研究論文を発表した。カンファレンスの論文は、新規性、技術的品質、重要性、潜在的な影響力、明瞭さによって選ばれます。

ロボットが夕食を作り、台所のテーブルを片付け、食器洗い機を空にする日はまだ遠い。しかし、研究グループは、人工知能を利用してロボットが物体をより適切に識別し、記憶できるようにするロボットシステムで大きな進歩を遂げたと、論文の主著者であるユー・シャン博士は述べた。

「ロボットにマグカップを拾ったり、水の入ったボトルを持ってきたりするように頼むと、ロボットはそれらの物体を認識する必要があります」とエリック・ヨンソン工学・コンピューターサイエンス大学院のコンピューターサイエンス助教授、シャン氏は語る。

UTDの研究者の技術は、ロボットが家庭などの環境にあるさまざまな物体を検出し、さまざまなブランド、形状、サイズのウォーターボトルなどの一般的なアイテムの類似バージョンを一般化または識別できるように設計されています。

Xiang の研究室の中には、スパゲッティ、ケチャップ、ニンジンなどの一般的な食品のおもちゃのパッケージが詰まった保管箱があり、ランプという名前の実験用ロボットを訓練するために使用されます。 Ramp は Fetch Robotics のモバイルマニピュレーターロボットで、円形のモバイルプラットフォーム上に高さ約 4 フィートの高さで立っています。ランプには 7 つの関節を持つ長い機械アームが付いています。最後には、物をつかむための 2 本の指が付いた四角い「手」があります。

Xiang氏は、ロボットは子供たちがおもちゃとの関わり方を学ぶのと同じような方法で物品の認識を学ぶと語った。

「物体を押すと、ロボットはそれを認識することを学びます」とXiang氏は言う。「そのデータを使用して AI モデルをトレーニングすると、次回ロボットがオブジェクトを見つけたときに、再度それを押す必要がなくなります。二度目に物体を見つけるまでに、それを拾うだけです。」

研究者の方法で新しい点は、以前の対話型認識方法では 1 回押すだけであったのに対し、ロボットは各アイテムを 15 ～ 20 回押すことです。 Xiang氏は、複数回押すことでロボットが深度センサーを備えたRGB-Dカメラでより多くの写真を撮影し、各アイテムについてより詳細に学習できると述べた。これにより、間違いが発生する可能性が減ります。

「物体を押すと、ロボットはそれを認識することを学習します。そのデータを使用して AI モデルをトレーニングし、2 回目に物体を見つけるまでに、それを拾えるようにします。」

Yu Xiang 博士、エリック・ヨンソン工学・コンピューターサイエンス学部コンピューターサイエンス助教授

オブジェクトを認識、区別、記憶するタスクはセグメンテーションと呼ばれ、ロボットがタスクを完了するために必要な主要な機能の 1 つです。

「私たちの知る限り、これはオブジェクトのセグメンテーションに長期的なロボットの対話を活用した最初のシステムです」と Xiang 氏は述べています。

コンピューターサイエンスの博士課程の学生、ニナド・ハルゴンカール氏は、このプロジェクトに取り組むことで、ロボットの意思決定を支援するアルゴリズムの改善に役立ったと語った。

「アルゴリズムを開発することと、抽象的なデータセットでテストすることは別のことです。実際のタスクでそれをテストするのは別のことです」とハルゴンカール氏は語った。「実際のパフォーマンスを目の当たりにすることは、重要な学習経験でした。」

研究者らの次のステップは、計画や制御などの他の機能を改善することで、リサイクル材料の分別などの作業が可能になる可能性がある。

他のUTDの論文著者には、コンピューターサイエンスの大学院生Yangxiao Lu氏も含まれる。コンピューターサイエンスの先輩であるZesheng XuとCharles Averill。カマレシュ・パラニサミ MS'23; Yunhui Guo 博士、コンピューターサイエンス助教授。そしてコンピューターサイエンス准教授のニコラス・ルオッツィ博士。ライス大学のカイユ・ハン博士も参加しました。