uncategorized

『Siri』よりすごい!?最先端の音声アシスタント技術は人々の生活をどう変えるのか―株式会社イナゴの挑戦

inago

みなさんもご存知の『Siri』と言えば、人間の声(話し言葉)を認識して答えを導き出してくれる、iOS標準搭載の“音声アシスタント機能”。『Siri』に少し似た『mia』という音声アシスタントアプリは、「文脈把握技術」や「ゴール共有型技術」(のちほど解説)を活用してより賢く、より適切な回答を導き出すことで人間の行動をアシストしてくれます。

スマートアシスタント」とは、文字通り、“賢く”人間をアシストする技術のことを指します。技術は、本来的に人間の行動に役立つためにありますから、どこからが「スマート」なんだ?というと難しいですが、例えば人間の言葉を認識することだけでなく、それを通じて人間が「どうしたいのか」といったことを理解し、適切な情報を出したり、人間の代わりに動いたりということなのではないかと思います。さて、具体的にはどういうことでしょうか?

今回は、スマートアシスタントのプラットフォームを開発する、株式会社イナゴさんにお話を伺いました!

[ポイント]
◆デバイスと人間が、対等に自然に会話することで答えに辿り着くための技術:「ゴール共有型技術」と「文脈把握技術」
◆スマートアシスタント:全てには答えられないけど、「特定のゴールに対してはスマートに辿り着く」を目指す
◆色んな技術と結びついて様々なソリューションを生み出すプラットフォーム
◆スマートアシスタントは、「UXを良くする」という話
◆スマートアシスタントが当たり前になる未来はくるのか

育成シミュレーションゲームの開発メンバーが人間に役立つことをしたくて始まった

イナゴという会社。カナダ人が代表で、日本とカナダにオフィスがあります。
代表のロン・ディカールアントニオは、元々育成シミュレーションゲーム『シーマン』(人面魚を育てるブラウザゲーム!皆さん覚えていますか?)の前身である、熱帯魚飼育シミュレーションゲーム『AQUAZONE(アクアゾーン)』の開発責任者でした。彼はその後、魚ではなく「人の役に立つものをつくりたい」ということで、会社を設立、はじめはHCI(ヒューマン・コンピューティング・インタラクション)を軸にした研究開発に従事し、その後スマートフォンの普及が加速し始めた2010年頃より音声アシスタントの開発をしています。日本オフィスでは、当時の『シーマン』や『AQUAZONE』のメンバーも多く活躍しています。

音声アシスタントを一歩前へ

音声アシスタントは、Appleの『Siri』やNTTドコモの『しゃべってコンシェル』のほかにも世界で色んなものが出回っています。イナゴの『mia』は、それらとは少し違います。

李氏:『mia』に使われている技術の一つが「ゴール共有型技術」というものです。これは、ユーザーとの自然な対話を意識しました。

例えば「レストランを探して」というとき、『Siri』では自動的に15件のレストランを表示してくれるのですが、『mia』はたくさんある選択肢を認識し、その中でユーザーが求めているレストランを導き出すことをゴールとしています。
検索結果を絞り込んでいくために、「場所は?」「料理のジャンルは?」「予算は?」といったかたちで検索条件を聞き返してくれます。それに対して自然な会話をするように答えていくことで、ホテルのコンシェルジュのように「ここがいいんじゃないですか?」というのを出してくれます。

ゴール共有型

もう一つは、「文脈把握技術」です。たとえば、「ここらへんでレストランを探して」と言って、先ほどのごとくジャンルや予算等で絞り込んでいったあとに、「あ、やっぱり渋谷で!」と『mia』に話しかけると、先ほどの絞込み条件は引き継いだまま、渋谷のレストランを表示してくれます。

文脈把握

なるほど、まさに人間の会話のごとく、文脈をわかってくれるわけというわけです。この文脈把握の技術は、今各社が頑張って開発をしていて、『Siri』にも実装がされているようですが、絞り込み条件を引き継いでというところまではまだいっていないようです。

(ちなみにこの『mia』、Android版はありますが、iOS版は『Siri』に似てるとの理由でApp Storeに弾かれてしまったんだそう・・!)

ゴール共有型技術ってどういうこと?

−−「ゴール共有型」というのはどういうところから発想したのですか?

前田氏:通常こういった技術では、答えを導き出すのに全てのフローを人間が作ってそれをもとに全部のパターンを計算していくのですが、弊社の技術は、全てのフローを作らなくても、結果をもとに「次はこれを聞こう」というのを動的に計算して判断できる点が特徴です。

人間と同じことさせようとするのはすごく大変なことで、AI(人工知能)の世界でも何十年年にわたって研究をしているものの、まだ赤ちゃんレベルにしか達していません。

でも私達はその赤ちゃんレベルでも世に出したいという想いがあったので、全てを教えこむのではなく、特定のゴールにはスマートに対応できるようにしようということで、まずは地域情報や飲食店情報のようなゴールを与え適切な情報に導くということをはじめました。

デジタルデバイスと人間の関係性?

人とデバイス

李氏:弊社自体がもともと「デジタルデバイスと人間とのリレーションをもっと人間的にしたい」というところから始まっているので、「パソコンがこうだから、(人間は)こう入力する」といったかたちではなくもっと対等な関係性にしたいと思っているのです。

そのためには、「喋る」ことが自然にできるといいと思うのですが、喋るというのはどういうことかというと、言っていることを理解して、そこから先にいくために相手も喋るというふうに、双方向のものだと思います。それを技術的に表現した一つのかたちが、「ゴール共有型技術」であったりすると思います。

前田氏:よく「会話する必要ないじゃん」、「コマンドだけでいいのでは?」と言われるのですが、そうするとGoogleのように「1万件検索できました」と出てきたら、その先ユーザーも頑張らなくてはなりません。人間だったら普通、1万件あったら、その先どうしようということを考えますよね。そこでやはり「会話」が必要になります

また、音声認識の技術は飛躍的に精度があがっているのですが、それでも100%にはなりません。なぜなら人間も聞き間違えをするから。聞き間違えをした時人間は、聞き返したり、対話をすることで補おうとします。なので、コンピューターとのインタラクションをより良くするためには、やはり会話は必須なのです。

技術の発展に伴い、人間の「慣れ」も必要

−−スマホに話しかけることにまだ抵抗のある人も多いと思いますが、そこのハードルはどのように越えていけると思いますか?

前田氏:そうですね、そこのハードルはあります。『mia』も、「何かお手伝いできることがあれば言ってください」と言うのですが、「何を喋ったらいいかわからない」というのと、恥ずかしいというのがあると思います。

ただ、技術が進化するのと同時にユーザーも慣れていくことが必要だと思います。今のフェーズは、そういう技術があることは理解しているけど、まだどのように使うかはわからないという段階。でも大企業がコマーシャルをしたりすることで、段々と当たり前になっていくと思います。

Googleの調査ではアメリカで若い世代は音声認識を普通に使うようになっているというデータがありますし、上海などにいっても多く見受けられます。そういう意味では海外で広まり、その流れで日本も若い世代から浸透していくということはありそうですね。

あくまで“スマートアシスタント”プラットフォームの開発がメイン

『mia』に使われているのは、「ゴール共有型技術」や「文脈把握技術」というものをもった“スマートアシスタント”プラットフォーム“の『netpeople』です。プラットフォームとはどういうことかと言うと、他社のサービスにもそのままその技術を組み込めるということです。
たとえば代表例として、カーナビとの連携があります。

李氏:音声アシスタントと最も親和性が高いものの一つが車だと思います。なぜなら両手が使えない状況だからです。たとえば、ClarionのIntelligent Voiceというカーナビでは『netpeople』を使っており、音声でグルメ検索ができるようになっています。

前田氏:弊社はあくまでもプラットフォームの開発がメインで、『mia』はその技術を紹介するためのショーケースアプリに過ぎません。

色んな他社の技術と組み合わせることで、色んなソリューションをつくることができます。将来的には、どんなデバイスでも裏でプラットフォームとして『netpeople』が動いているという状態にしていきたいと思っています。

プラットフォーム   netpeople by iNAGO

−−他にどんな場面で『netpeople』が使われると想定していますか?

前田氏:例えば、家で料理をしながらデバイスに話しかけてレシピを探してもらったり、家に帰ってきたら「おかえりなさい」と言って電気を付けてくれたり。疲れていそうだなというのを察知して「このビデオ観ますか?」と言ってくれたり。

今IoTということが言われていますが、その中で「Home」も注目されています。そういった未来的なことを想像したときに裏で動いているのは『netpeople』というふうにしていきたいのです。

アーカ氏:よく音声認識の技術開発をしていると勘違いをされますが、音声認識や音声合成は他社の技術を使っています。音声認識が耳で音声合成が声だとしたら、『netpeople』は脳みそなのです。

前田氏:ソリューションは弊社の技術だけでは作れないので、色んな技術を持っているところとどんどん共同で作っていきたいと思います。

日本や世界で「スマート化」は加速するのか

「スマートハウス(スマートホーム)」や「スマートシティ」といった言葉はここ数年でよく聞くようになりました。もともとはエネルギーを効率良く使うといった意味合いが強かったように思いますが、最近ではIoTとの関連でスマホと連携してセキュリティを強化したり、何かを操作したりといった文脈も増えてきたように思います。

——先ほどのカーナビもそうですが、住宅メーカーなども含めて、『netpeople』のような技術を活用したいというような声は多いのではないでしょうか?

前田氏:やりたいというお客さんはたくさんいますが、どうやればビジネスになるのかということを考えると課題が多いのも事実です。

どちらかというと、「UXを良くする」というような話なので、ビジネス的メリットが見えづらいというか、数値に直すのが大変なのです。付加価値というよりは、本当は標準機能的になっていくべきものなので、機能に対するROIという考え方ではなくなると思うんですね。そういう意味では、これは新しいUXであって標準の機能としてはまだ定着していないので、先行投資的な意味合いが強いと思います。

なので今は私達もコンサル的に入っていって、「どのように活用できるか」ということを一緒にディスカッションしています。

−−かなり最先端の話だと思いますが、海外とくらべて日本の動きはどうですか?

前田氏:技術的に遅れているということはないのですが、マーケティング的にどう動こうとしているかが違うと思います。海外では「まずやってみよう」というのがありますが、日本は「一定レベルまでいかないと」という考えがありそうです。また自社開発の傾向が強いため、技術が広く受け入れられづらく、ビジネス的に遅れてしまう可能性はあるかもしれません。

アーカ氏:また品質基準が日本は高く、すぐに商品化がしづらいので、それもスピード的に劣る要因になっていると思います。海外では商品の出来が80%でも出しますが、日本の場合は「120%じゃないと出せない」という感じなので、つまり40%が遅れになっています。ソフトウェアは、常に変わっていきますし、100%に行かすのは難しいですので・・・

前田氏:どうせ一社ではできないのだから、オープンにして日本全体のスピードを上げていったほうがいいですね。そうしないと海外に負けてしまうので。

取材担当より一言

近い将来、デバイスなどに人間が話しかけ、自然に受け答えして人間の生活や行動を助けてくれる、そんな世界が今よりももっとスタンダードになっている未来をイメージすることができました。iPhoneユーザーの私はまだ『Siri』を使うことに恥ずかしさを感じてしまいますが、そういった心理的ハードルも数年後にはなくなっているのではないでしょうか。

おそらく多くの業界で、次なるイノベーションのヒントとして頼りにするのはスマートアシスタントのような技術なのではないかと思いますが、そういった製品をつくったからといってそもそも人々に受け入れられるのか?といった問題もあるでしょう。早すぎても、なかなか人間がついてこられないという事態になってしまうかもしれません。ただ、人間はここ十数年だけを見ても、常に新しいものを受け入れ活用してきた歴史があります。世の中にスマートアシスタントのような技術を浸透させていくためには、前田氏が仰ったように、技術はオープンにして各社が協力・議論しながら前進していくことが大切そうです。


iNAGO Inc.

netpeople

mia

miaダウンロード

sekai-labSEKAI LAB TIMES(セカイラボタイムス)は、アプリ・Webサービス開発を世界中のエンジニアチームに依頼・発注できるグローバルソーシングプラットフォーム「セカイラボ」が運営しています。詳しくはこちら


YUKA NUNOI /
ぬのちゃんと呼んでください。よく、人間ではない様々な生き物(あるいは生き物じゃないもの)に似ていると言われる。世界の行く先と、そこでどう行動すればいいかについて、皆さんと考えていきたいです。好きな国はウガンダ。