AI Lab

データ分析

現代社会ではあらゆる場面でデータが取得され、データ活用がお客さまの大きな課題となっています。

デジタルフォルンは、このたび一橋大学大学院 横内准教授を技術顧問にお迎えし、

コンサルティング領域におけるAI・ビッグデータ分析の研究、開発とデータサイエンティスト育成に注力していきます。

yokouchi2.jpg

横内 大介(よこうち だいすけ)氏

一橋大学大学院経営管理研究科 准教授

慶應義塾大学大学院理工学研究科後期博士課程修了、博士(工学)。慶應義塾大学理工学部数理科学科データサイエンス研究室助手、一橋大学大学院国際企業戦略研究科専任講師を経て、現職。現在、複数の民間企業の技術顧問や社外取締役に就任し、AI開発やビッグデータ分析の監修、データサイエンス人材の育成も行っている。

「データに饒舌に語らせる」科学がデータサイエンス

──先生のこれまでのキャリア、そして現在の研究内容のポイントをおしえてください。

 

博士号は統計解析ソフトウェアの設計と開発で取得しましたが、データ分析ができない人間は本当の意味でのよい統計解析ソフトウェアは作れないということに気がつき、博士号取得後はデータ分析に重点を置いています。
研究を続けていく中で、違う分野のデータでも基本的な構造が共通であれば同じ分析方法で対応できることがわかってきました。例えば、為替データは、取引が発生して初めて記録されるので、発生間隔は不等間隔になります。これは地震発生でも同様です。この2つは、完全ではないものの、ほぼ同じ点過程モデルを使うことで分析できます。
このような現象の共通項自体をデータ化できれば、データ分析はある程度自動化できると予想しており、日々研究しています。よく考えれば、僕は自分がデータサイエンティストでありながら、データサイエンティストの職を奪うような研究に興味があるのですから、かなりユニークだとは思っています。

 

──学生時代にはプログラム言語を作られたというお話もお聞きしました。

 

僕が修士、博士課程のころはインターネット時代がちょうど幕をあけたころで、インターネット上には徐々に公的データが公開されるようになりました。入手はできるようになったものの、実際にデータを集めてきて分析できるように加工してみると、その作業はとても面倒で間違いやすいことに気づきました。それをどう省力化してデータの流通を促進するかが、当時の研究テーマでした。具体的には、インターネット上のデータを統合するルールをXMLで実装し、それを理解するクライアントサーバシステムをJavaで開発していました。その際、データ操作をサーバに命令するスクリプト言語を定義し、Java CCで実装しました。時間はかかりましたが、今では貴重な経験になっています。

 

──優秀なエンジニアは自分の仕事を省力化することを考え、そこからよいツールが生まれたりします。

 

典型的な分析方法をデータに適合し、その結果を見るということは誰しもがやることですし、それはしばしば体系化されます。創薬などの臨床試験はまさにその典型でしょう。体系化は、データサイエンティストのような統計の専門家でなくても分析が実施できることが目的です。おっしゃっている省力化という意味ではITと共通だと思います。
ただし、ITエンジニアは、数学を解く技術、プログラムを書く技術はあるけれど、データを使うセンスがない人が目立ちます。例えば「平均」の計算といわれると、なぜかいつも算術平均を使ってしまう。幾何平均や調和平均がなぜ必要なのかまるでわかっていないので、これは危機意識をもったほうがよいですね。

 

──センスがある人とない人というのは、どのあたりが分かれ道になっていくのでしょう?

 

センスがある人を定義することは困難ですが、最もやってはいけないのは、やみくもに最先端にばかり飛びついて、いつもそればかりやろうとすることですね。

本来は、データに対して適切な道具を選択することが目的なのに、ひたすら新しい道具に走ってしまう。例えば、ディープラーニングはその傾向にあります。確かにディープラーニングはなんでも分析できるというのがウリです。ある意味で何でも切れるチェーンソーです。しかし、よく考えれば、それを使ってリンゴを切る人はいないはずです。しかし、センスがない人は、何でも切れるという理由だけですべてをチェーンソーで切ろうとしてしまう。普通に考えればリンゴにはやはりナイフを使うべきなのに。

 

──目的と手段が逆転してしまうのですね。

 

これはビジネスの世界でも意外に多く、「これを売りたい」という想いが強すぎるあまり的外れなところに無理に売ってしまい、次につながらない。売りたい道具からビジネスに入るのではなく、相手の背景からビジネスに入る人は、センスがあると思います。
観測対象の背景を映すデータに饒舌に語らせる科学がデータサイエンスであり、データや観測対象に合わせて適切に道具を選べる人がデータサイエンティストです。今、巷で行われているのはデータを黙らせる科学であり、チェーンソーのデータ分析です。

僕は、データ分析の結果を素直に受け止められる人も、センスがある分析者だと思っています。常に「こういう結果が欲しい」と思って分析していると、分析者はどうしても自分たちにとって都合の良い結果をだそうと努力してしまいます。

ホワイトボックス型のAIを追求して

──先ほど「ディープラーニング」という言葉が出ました。AIとディープラーニングはセットで語られることが多いと思います。

 

冷静に考えると、ビッグデータはなんでも食べさせればいいというのはかなり怪しい話だということに、気がつかないといけないと思うんですね。例えば、ラグビー選手の体を大きくしたいからと言って、何でも食べさせればいいわけでないことは誰でもわかると思います。必要な材料を洗い出し、バランスを図りながら与えて強化するわけです。
今、ディープラーニングでやろうとしていることは、「なんでもいいからたくさん食べさせろ、そうすれば素晴らしいラグビーの選手ができる」という話をしているように聞こえます。実際、ディープラーニングに限らず、とにかくビッグデータを機械学習に与えて答えが出ればいいという考え方自体が非常に困った話だなと思っています。

 

──いつも話していらっしゃる説明責任の重要性の話につながっていくわけですね。

 

説明責任を果たす上で、こういう時には答えが合った、こういう時はダメだったということを蓄積していく「試行錯誤の蓄積」が大事だと思うんですね。その結果、データの裏側にある現象をうまく説明できるAIができる、という話になるのです。
一方、機械学習は、極端な話、学習データに合わせて正答するようにチューニングできれば、データの背景を知らないエンジニアでもAIが容易に作れる。結果として、「理由はわからないけどAIを信じればいい」というAIの危険性の話につながります。 

 

──「ディープラーニング」イコール「ブラックボックス」というか、なぜその答えが出たのかを説明できないケースが多い。それに対して、なぜその答えが出たのか、あるいは出なかったのかという「ホワイトボックス」の考え方がある。本来データの取り扱いというのは答えありきの話ではないので、そこを正しく理解しない限りは、経営戦略の中で正しいアプローチのデータサイエンスが生かせないことになります。

 

わかりやすくするためにブラックの対極としてホワイトと呼んでいますが,厳密にはAIの透明性のことを指します。誰もが理解できる透明性を確保するためにはデータに対して真摯に向き合う必要があります。これは探索的データ分析という方法で実現可能です。しかしながら、大変面倒な分析法であり、単純な機械学習の適用がもてはやされる原因にもなっています。今、求められているのは、その面倒な作業を上手にサポートする次世代統計ソフトウェア開発なのではないかと考えています。

漠然とではありますが、デジタルフォルンとのシステム開発の経験を積む中で、新しい統計ソフトウェアを作るプロジェクトが立ち上げられたらいいなと思っています。

 

──企業からの相談も多いかと思います。事業戦略にAIやデータサイエンスを取り込んでいく場合、前提認識を正しく持った上での進め方のポイントをおしえてください。

 

「AI」、「データサイエンス」という言葉は単にバズワードとして使われてしまっているのが現状です。データを通じて企業の置かれている現状を理解し、新たな企業戦略を構築するためにデータサイエンスを用いるべきなのに、多くの企業は特に理由もなくAIをあらたな戦略に位置づけ、いたずらに新しいビジネスを求めて、無意味な外注を繰り返して出費を垂れ流しているように見えます。
これは、おそらくインターネットが原因だと思っています。新聞社ですらインターネットでこの種のネタをさがし、内容を理解もせずそのまま記事にしてしまい、間違った認識を巷に流布しています。AIやビッグデータに対するある種の幻想もここから発生し、いまだに経営陣を惑わしています。メディアの情報は断片的であることを理解し、新技術の実現可能性を真剣に見極めて、自身の事業に反映するべきだと思っています。

 

──先日の解説で衝撃的だったのが、国別に見た時に日本にデータサイエンティストが少ないのは、ざっくりいえば、Pythonのエンジニア数を比較している統計だからだという点でした。

 

当時は、ディープラーニングが組める技術者をデータサイエンティストと暗に数えていましたから、結局はPythonでディープラーニングのプログラムが組める人の数とほぼ同義になっていました。これは一種のデータリテラシーの問題から、どのようなデータから導いたのかということも考えた上で数値を読まないと大きく誤解します。実際、データサイエンティストが必要なのに、Pythonの技術者をかけ集めている日本の現状を考えれば、私の推測は間違っていなかったと思います。

今一番怖いのは、デジタルトランスフォーメーション(DX)という言葉につられて、すべての企業が踊りだしつつあることです。

極論を言えば、特定の分野ではデータサイエンスやDXは不要だと思っています。例えば、新しいアイディアを出す場面でデータサイエンスを使ってもしかたがないと思っています。デザインは、人のまねをせずに斬新なものを作ることが目的です。しかし、AIは過去データをまねることが得意なのですから、デザインをやらせればとそれは必ず過去の模倣になります。

 

──使うべき領域と使うべきでない領域を混同するのは危険だというお話ですよね。

 

お茶のペットボトルのラベルを考えようとしたら、AIは、色は深い緑か薄い緑か、お茶の葉があるか、「茶」という漢字があるかぐらいしか学習しませんから、それらを混ぜて類似したデザインしか提案しないでしょうし、そのまま使ったら訴訟が起きかねません。ですので、クリエイティブな仕事には、データはそれほど必要ないと思っています。

顧客の声に耳を傾けることを究めて、際立つ結果をデータに語らせる

──データサイエンスやAIを活用する時に、気をつけないといけないこととは何でしょう。

 

データを分析した結果だからすべて正しいという、水戸黄門の印籠みたいにならないといいなと思っています。

データ分析はあくまで結果であって、過去の要約であることをきちんと理解しないといけない。AIは要約からの結果を答えるだけであって、我々の未来を照らしてくれるわけではありません。
データが過去の要約であるということを忘れて、予測などに使おうとしすぎるのです。データは万能であり分析の結果がすべてだ、と思うべきではないです。なにしろ、データ黎明期ですから、巷のデータ分析者のスキルが信用できるとは限りません。

そのためには,分析者が一定の力をもっていることを保証する枠組みを作らないといけないのかなと思います。このような動きは一部の大学や社団法人にも見られますが、手法や技術の理解に終始している点が気がかりです。今、実務で求められているのはうわべの技術の知識ではなく、データから価値のあることを引き出すためにはどの手法を使えばよいのかという、道具の選び方の力なのです。そのようなスキルを身に付けられる場をどうやって作っていくかが課題だと考えています。
ただし、これは大学主導でやるべきではないです。現在の大学は、世界大学ランキングを上昇させるインパクトの高い論文を書くためだけの場所であり、実務界からの要請は二の次です。そのような状況で、大学の先生たちに実務を意識した教育をしてほしいと言っても困難でしょう。やはり、民間企業が主導する枠組み作りが不可欠です。

 

──そうはいっても、データサイエンティストを作るには大学などの高等教育機関でそれなりのプログラミングスキルなどを身につけさせる必要があるのではありませんか。

 

極端な話、Pythonを使って難しい分析手法が実装できなくても、データから正しい事実が導き出せるのであれば、その人は能力の高いデータサイエンティストです。
データを正しく理解していれば、実は、難しい手法で出した結果も簡単なグラフを描いて出した結果もそれほど大きな違いはありません。

正直な話、微分積分がわからなくても、データに対する理解力があれば、実務で役に立つという意味では良いデータサイエンティストになると思います。難しい数学ができることよりも、データから正しい結果が導けること重要なのです。

 

──職種に関係なく、そういうビジネススキルがビジネスマンに求められる大事な点ということですよね。

 

そうです。極論を言えば、Excelのグラフであっても、それでデータの発生メカニズムが上手に説明できるのであれば、立派なデータサイエンティストだと思います。

 

──デジタルフォルンは、究めた技術と際だった発想で1つ先をリードしていけるプロ集団になっていこうということで、「きわめる。きわだつ。」というブランドスローガンを、ようやく掲げ始めたところです。

 

誰のために何を究めるのかが重要ですね。それを考えないと、山に入って一人で修行しているだけみたいになってしまって、究めても仕方がないような気がします。

 

──そこが大事なのではないかと。

 

僕が微力ながらお手伝いできるのは、お客様のニーズに沿ったデータの活用方法だと思っています。言い換えれば、「顧客の声に耳を傾けることを究めて、際立つ結果をデータに語らせる」ことでしょうか。それであれば、皆さんのお役に立つような仕事が少しはできるかなと思っています。

 

──今度、ホテルを経営されている会社に、弊社で作成した価格の調査集計のRPAをご紹介します。ただ、ホテル業界はプライシングのサービスなどのいろいろなツールが出てきていることもあって、先方も勉強をしておられると思います。そういったところで相談にのっていただければと思っています。

 

ダイナミックプライシングですか。真のベストプライスは観測できないので非常に難しい課題です。ベストプライスらしいものを提示しながら市場の反応を見て調整していくという仕掛けですから、市場の反応をどう定義するかが肝ですね。
おそらく、お客さまの潜在意識の中に、その周辺のホテルの優先順位というものがあると思います。その優先順位の中で価格を加味しながら、どのホテルをチョイスするか決めているはずです。単純に一番安ければ必ず選ばれるわけではなく、駅に近いところから埋まっていく地域性かもしれないし、駅からは離れているけどランドマーク、例えばお城が近いといった要因から順に決まるのかもしれない。複合的な要因が絡み合っていますから、それらのデータを集めるのはかなり大変だろうという予感はしています。

 

──現在 流通しているダイナミックプライシングツールの想定値は、ベンチマークとなる近隣ホテルの価格情報をクロールで集めてきて、空き室率などをかけあわせた価格が提案されるというものではないかと思います。
 その先にある近隣のホテルの情報が、価格だけでよいのか、駅からの距離の情報なども持つべきか、あるいは部屋数などの情報も必要かなど、データの持ち方で全然違ってくるというお話ですね。

 

例えば、地方の新幹線の停車駅から至近のホテルのプライスと遠方のホテルのプライスを考えたとき、至近のホテルはタクシーなどの移動費用の分までは遠方のそれよりも高くてよく、遠方のホテルはその逆になるように価格をつければよいということになります。

他にも、年齢などの宿泊者の属性の違いも重要だと思います。地域の観光局の調査結果を利用して観光客を細分化し、それをシステムに加味するのも1つの手だと思います。
現行のシステムが、近隣の空室率などと価格でプログラムを調整しているだけだとすれば、このような判断を根拠のある形で提示できるシステムは価値があるでしょう。

 

──面白いですね。ほかにも気を付けることはありますか。

 

ホテルの客室のような期日があるダイナミックプライシングのシステムでは、多くの場合、高い値段から徐々に価格を下げる方向に調整することになるでしょう。ITの役割は、そのような価格を下げさせてシステム利用者を疲弊させることだけではないと思っています。御社は、それはそれとして最低限のことはやりつつ、プライスとは別に集客を上げる方法を顧客とともに考えるべきなのではないでしょうか。
もしかしたら、近くにおいしいお店があるからという理由で、そのホテルに決めてしまうこともあるわけですよね。一部の客はその要因でホテルを決めていることをデータから突き止められれば、そのお店と上手に連携するだけで、値下げしなくても客付けできます。
高い値付けができないという日本人の特性も考慮すれば、ダイナミックプライシングは客室を埋める最終手段だと思います。そこに頼る以前に,ある程度客室を埋めてしまえる仕掛けをシステム化することが、ホテルにとっては最も良いシステムだと考えます。

 

──例えば集客に何かしら貢献する、あるいはWeb上のデータを持ってくるなどでも、デジタルマーケティングの方法によっては、ホットスポットや周辺の魅力的なスポットを解析するということもできるかもしれないと思いました。

 

そうですね。プライシングに地域特性を反映しつつ、それと並行して、ビジネスの活性化を図るためのデジタルマーケティングの施策を同時に打つ。

 

──それこそ総合的な支援という話につながってきますね。

 

そういう意味では、デジタルフォルンにある複数のソリューションを同時に使えば、何か面白い仕掛けが提供できるかもしれませんね。お役に立てるアイディアが出るかどうかはわかりませんが、皆さんと議論を重ねながらいろいろと考えてみます。

 

──どうもありがとうございました。

RECRUIT

採用情報

新卒採用・キャリア採用を行なっております。

ご相談、お問合わせ

CONTACT

お問い合わせ