自然言語テキストを対象としたジオタギング
写真や動画など何かしらのデータに対し、位置情報を付与するプロセスのことを「ジオタギング」と呼びます。位置情報が付与されたデータは現在、様々な場面で活用が進められるようになりました。
その中でもテキストに対するジオタギングは、とても興味深いテーマです。一つ例を挙げてみます。
私はたった今、豊橋駅に到着しました。
この文章に位置情報を付与できるとしたらどこでしょうか? ”豊橋駅”は地名を表す単語であるため、位置情報を付与できそうですね。この”豊橋市”という単語に緯度経度の情報が紐づけられたとして、どのように活用することができるでしょうか。例えば上記のテキストを誰かが発話したのであれば、その人の位置が特定できそうです。
ビジネスにおいてイメージしやすいのはコールセンター業務でしょうか。
○○市△△町××1-1までタクシーをお願いします。
タクシー配車のコールセンターで上記のような電話がかかってきた場合、電話の音声を音声認識してテキストに変換し、ジオタギングで位置を付与できれば、目的地の位置が通話しながら自動的に特定されて、スピーディーな配車が可能になるかもしれません。
現在、テキストへのジオタギングに関するオープンソースプロジェクトとして「GeoNLP」が立ち上げられ、研究開発が進んでいるようです。
文脈を解釈したジオタギングって可能?
ただ、テキストのジオタギングにて処理したい文章は、必ずしも位置情報が分かりやすい地名で表現されているわけではありません。文脈を解釈しないと位置を特定できないキーワードも考えられます。例えば…
豊橋駅の東口を出て最寄りのコンビニの前で待っています。
この文章には豊橋駅の他に「コンビニ」という単語にも位置情報が付与できそうです。しかし、特定の地名を表す単語ではないため、それ単体では位置情報を付与できません。ただ、前後の文脈を辿ると「豊橋駅の東口」「最寄りの」というキーワードがあり、これらをコンビニの位置を推定するための絞り込み条件として考えることができそうです。これらの文脈をうまく解釈することで、上記のようなパターンにも位置情報を付与できるのではないでしょうか?
そう考えて調べてはみたものの、現時点で実用レベルで文脈を解析できるプログラムやサービスはまだ多くないようです。現在の文脈解析の実態を知るため、照応解析を体験できるサービスとしてCOTOHA APIを見つけたので、試しに触ってみました。
「ここ」「それ」などの代名詞の参照先を推定することはできるようです。試しに上記の例文を入れてみますが…
「豊橋駅」と「コンビニ」の間に関係を見出すことはできていません。想像以上に課題は多そうです。「最寄りの」のようなフィルタとして使える形容詞のデータベースが必要なのか?そもそも「コンビニ」のような一般名詞に位置情報を付与できるかどうかをどう判断するのか? 考え出すとキリがないですね。
もうすこしCOTOHA APIをいじり倒してみたかったのですが、時間がなくなったので今回はここまで。テキストのジオタギング、面白いテーマなので、今後も調べて分かったことを共有していこうかと思います。