ペッパーと上手く話すには。人とロボットの会話の作法。

設定
各種SNSで記事を共有

🔄 最終更新日 2020年4月9日 by takara_semi

自然な会話の難しさ

ペッパーやアイボなどのコミュニケーションロボットが一般に普及してきた昨今、あなたはロボットと「自然な会話」ができていますか。多くの場合、なんだかぎこちないコミュニケーションとなってしまうことだとと思います。そこで本記事ではロボットと人間との自然なインタラクション(会話等)について考えていきます。特に、ロボットと人間との自然なインタラクションを困難とする要因として考えられる、人間にとっての常識的な振舞いの「ゼスチャ」「直示」「視線」「タイミング」について考察します。

人はなぜゼスチャするのか

人は何故ゼスチャをするのでしょうか。ゼスチャは、言葉では上手く表現できない抽象的な概念やイメージを相手と共有することによって、その理解を助けるためにあるのだと考えられます。言語だけでは理解し難い内容も、ゼスチャが理解の補助的作用をすることによって、より円滑なコミュニケーションが実現されているものだと考えられます。

また、ゼスチャは「聞き手指向」な行動です。つまり、話している人のためでなく、聞いている人のために行うものだということです。何故なら、先に述べたように、ゼスチャは相手の理解を助けるために作用するものだと考えられるからです。相手がおらず、自分一人で「独り言」をする際に積極的にゼスチャが起きないのはこのためでしょう。ある研究によれば「話し手は聞き手が見えるときに、より多くゼスチャをする」という報告があります。話し手が発話する中で自然と出てくる「話し手志向」な行動であるとの考え方もできますが、先の研究報告と「相手のため」という意味の強さから、聞き手を意識して生まれる「聞き手志向」の行動だと考えられます。人とロボットとの会話を考えると、ロボットが聞き手の場合、ジェスチャがロボットの理解の助けとなると、話し手の人は考えないでしょう。この時点で、人とロボットとの会話では「ゼスチャ」が排除され、自然な会話を実現することは難しくなってしまうと考えられます。

言葉が先かゼスチャが先か

言葉よりもゼスチャが先だと考えられます。そもそも「言葉」というものは具体的な「イメージ」が頭の中に浮かび、その内容と頭の中の「言葉の辞書」のような記憶とを照らし合わせた結果として発せられるものです。しかし「ゼスチャ」は具体的な「イメージ」が頭の中に浮かんだ、その直後に発生しうるものです。つまり「イメージ」から「言葉の辞書」を介して「言葉」となるよりも、1つプロセスの少ない「ゼスチャ」が、「言葉」よりも先に出るものだと考えられます。

例えば外国人に「忍者」を伝えたいと考えたとき「言葉」はなかなか出てきません。しかし「手裏剣を投げる」や「刀を振るう」といった具体的な「イメージ」は頭にすぐに浮かび、ゼスチャによって伝えることが可能です。つまり発話の後からゼスチャが付くのではなく、発話とゼスチャが同時に生成される、もしくは、ゼスチャは短いスパンで話し言葉に同期し、ごく僅かに先行するものであると考えられます。

つまり、このような人間の自然な会話プロセスである、イメージを理解し、またイメージを先行して発話するようなロボットの開発が、より自然な会話の実現には必要となってくるものだと考えられます。

ロボットが直示会話するための計算モデル

ロボットが直示会話をするためには、まずロボットが「自分」と「相手」と「直示対象」の位置関係をセンシングし、その関係によって正しいレスポンスを返すような計算モデルを作ればよいと考えられます。また、空間的な直示において、指示語である「あれ」「これ」「それ」は「自分」が発するか「相手」が発するかによって、その直示対象の位置は異なります。つまり、この場合は位置関係に加え、直示会話の「発信者」を区別する必要もあります。前述の内容に対して正しいレスポンスを返せるような計算モデルが、直示会話のためには必要となります。

視線の役割

視線の役割の一つとして、感情やゼスチャのような機能があると考えられます。視線が下を向いていれば、どことなく気持ちが沈んでいるように感じますし、上を向いていると考え事があるようにも感じられます。また、対話の際の視線は、多くは相手の目から首元辺りを動いています。しかし、相手との親密度や立場、会話内容によって「視線の動き」は大きく異なってきます。この現象も、感情などの心の状態を示すものだと考えられます。

他の視線の役割としては「対話相手の反応のモニタリング」「会話フローの調整」「注意の共有」というものが挙げられます。また、対話中の視線の動きは一般に、話し始めには視線がそれ、その後顔を見たり、やや下を向いたりします。その挙動の意味は読み取れませんが、このような視線の動きからの逸脱が見られれば、相手の状態が正常でないことが窺えます。視線の役割は非常に多くあり、まだまだ考察の余地があります。人とロボットとが会話する際にも、非常に情報に富んだ「視線」を利用しない手はありません。内部状態や目的によって変化する視線の動きを実装することで、より自然で高度なコミュニケーションロボットが実現されることは間違いないでしょう。

ロボットの「間」

人の会話には独特の「間」があります。この「間」によって、会話が心地良くなったり、不快に感じたり、笑いになったりと、同じ発話内容であっても、その結果が多種多様に変化します。ロボットの場合はどうでしょうか。コンピュータのレスポンスは、早ければ早い方が良いでしょう。コンピュータはあくまで与えられた仕事をこなすだけの存在なので。しかし、これはあくまで「レスポンス」の話であってインタラクションにおける「間」は別の話になります。コミュニケーションロボットとのインタラクションはレスポンスが早ければ早いほど良いとはいえません。これは前述した「間」の問題があるからです。「間」がなければ会話としては何とも気持ちの悪いものとなってしまいます。つまり、「自然な会話」を実現するには、ロボットが人間からの言葉の入力に対して高速のレスポンスするのではなく、わざと「間」という「無駄時間」を作り出す会話モデルが必要になります。

機械の応答のタイミングとして、ユーザインターフェイスの場合「2秒ルール」という概念が存在します。これは、2秒以上の待ち時間はユーザを不快にさせるため、好ましくないというものです。また、人間同士の対話においては、一般に1秒弱の「間」が存在するといいます。つまり、先ほど「間」として漠然と「無駄時間」が必要だと述べましたが、これらの考えを考慮すると、ロボットとの会話というインタラクションにおいては2秒未満で1秒程度の「間」を実現するモデルが適しているのだと考えられます。

ここまで言及してきた、人間にとっては当たり前な「ゼスチャ」「直示」「視線」「間」という概念をロボットに実装するのが如何に困難か理解して頂けたことかと思います。しかしながら、科学技術は日進月歩、絶えず発展していきます。近い将来、これらを自在に操り、ごく自然に会話できるロボットが開発されることを夢見ています。

各種SNSで記事を共有
takara_semi
著者紹介 旧帝大学生。自然科学/社会学/教育学/健康増進医学/工学/数学など、および学際的な研究領域に興味があります。

コメントする

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください

error: