お客様の声／Sansan株式会社様 | SIGNATE

名刺のデータ化には正確性が求められる

はじめに、Sansanの事業内容について教えていただけますか？

常楽様：法人向けの「Sansan」と個人向けの「Eight」という２つのプロダクトの展開をしています。どちらも、ビジネスの出会いを資産に変え、働き方を革新するという弊社のミッションのもとでできたプロダクトです。よく「Sansanさんって名刺しかやっていないのですか？」と聞かれます。一つのことを深堀して初めて提供できる価値があると思うので、現在は名刺管理サービスという切り口に絞って事業を展開しています。

現在、Data Strategy & Operation Center のR&D Groupでは、どのような業務を行っていますか？

江崎様：名刺を正確にデータ化するシステムの構築です。 SansanとEightを通して大量に入ってくる名刺の中には似たような文字が混在しています。例えば、アルファベットの「l（エル）」と数字の「1（イチ）」などです。アドレスの文字が1文字間違っていたらどうでしょうか？それだけで連絡が届かなくなってしまいます。文字を正確に読み取ることは、お客様に気持ちよくサービスを使ってもらうためにはとても重要なことです。これは、OCR*1のみでは難しいので、R&Dの技術に加え、人の力も借りながら100％の精度でデータ化することを目指しています。

データサイエンスラボ（現・SIGNATE）の「オープンイノベーションをしたほうが名刺のデータ化を加速する可能性が広がるのでは？」という提案がきっかけだった

DeepAnalytics（現・SIGNATE）をご利用していただいたきっかけは何でしたか？

江崎様：大きなきっかけはデータサイエンスラボ（現・株式会社SIGNATE）様からの「DeepAnalytics（現・SIGNATE）を使ってオープンイノベーションをしてみたら、名刺のデータ化を加速するためのアイディアが広がるのでは？」という提案でした。最初は、名刺データには個人情報が多く含まれているため出題できる問題にも制約がかかってしまい、面白い問題ができるのか不安でした。データサイエンスラボ（現・株式会社SIGNATE）様からいくつか問題を提案してもらい、一緒に考えた結果、名刺の項目*2を推定するアルゴリズムの作成がお題ならダミーデータを作ればできるし、問題としても弊社の事業に大きく貢献できるような課題であったので取り組むモチベーションが産まれるのではないかと思い、コンペティションを開催することにしました。

常楽様：名刺の文字を正しくデータ化することも難しいのですが、名刺の項目を正しく認識することも同様に技術が必要です。例えば、番号の書いてある項目が携帯番号なのかファックス番号なのか人の目から見てもすぐにはわかりづらいことがあります。その問題に対する良い知見を得るのによい機会ということもあって、コンペティションのお題を名刺の項目を推定するアルゴリズムの作成としてみました。

今回のコンペティションでは名刺データを一から作成しなくてはなりませんでした。その時の苦労話などを聞かせていただけますか？

江崎様：コンペティションで配布する名刺画像データ作成が特に大変でした。今回の名刺データは、本物に近いデータを作成したいという強い想いがありました。 5,000枚ほど名刺画像データを用意する必要があったのですが、名刺のレイアウトの考案から、名刺データに影を入れるなど一枚一枚工夫しながら作成を行うことで、実際の名刺画像データに近づけました。

また、項目の矩形情報を抽出するために実際に運用しているシステムを使ったのですが、思ったようにきれいに切り出してくれない例が多くありました。それらについては目視で直さなくてはならなかったため、他のメンバーにも協力してもらいながら進めました。さらに各項目の矩形について、ラベルの間違いチェックも必要でしたが、データサイエンスラボ（現・SIGNATE）様にも協力していただき、何とか完成できました。

コンペティションがきっかけでR&D Groupが行っている活動のよいPRができた

コンペティション開始後、告知活動などを行っていらっしゃったと思いますが、その時のお話を聞かせていただけますか？

常楽様： Datapalooza　(http://www-01.ibm.com/software/jp/events/analytics2/)や全脳アーキテクチャー(http://www.sig-agi.org/wba）などでコンペティションの告知を行いましたが、これにより「Sansanって研究開発もやっていますよ」ということがアピールできました。コンペティションを開いたことでSansanのR&D Groupが行っている活動のPRにもつながってよかったと思います。

常楽様：名刺の文字を正しくデータ化することも難しいのですが、名刺の項目を正しく認識することも同様に技術が必要です。例えば、番号の書いてある項目が携帯番号なのかファックス番号なのか人の目から見てもすぐにはわかりづらいことがあります。その問題に対する良い知見を得るのによい機会ということもあって、コンペティションのお題を名刺の項目を推定するアルゴリズムの作成としてみました。

コンペティション期間中にトップスコア推移を見ていかがでしたか？

江崎様：最初の投稿者によって精度がグンと上がったのを見て、これでほかの参加者のやる気がなくなってしまうのではないかと心配でした。それでも精度はどんどん上がり続け、最後のほうでは1～3位の間の接戦をリアルタイムで見られたので、スコアの推移を観察していて面白かったです。その他には、ベンチマーク*3の設定がよかったと思いました。ほとんどの人がベンチマークを目指して最終的には超えるスコアを出して下さったので、熱心に取り組んでくれたのではと思いうれしかったです。

常楽様：僕らは名刺のデータ化ばかりをやってきたので、これに関してはだれにも負けない自負は多少ありました。ただ、実際にコンペティションを行ってみたところ、僕らが思いつかないような手法を用いて高い精度を達成したモデルが出てきていたので、オープンイノベーションの価値を改めて実感しました。

Deep Learningは万能ではない

コンペティションの結果、入賞者レポートはDeep Learning*4を主体としたものではありませんでした。現在画像認識といえばDeep Learningといっても過言ではない中で、結果を受けていかがでしたか？

江崎様：確かにDeep Learningは多種多様なデータに対する性能は高いですが、名刺画像に対する適した特徴量の設計は独特で、 "名刺"のようにニッチなテーマに対しては向かなかったのではないかと思います。特に今回のコンペティションの場合、名刺データでかつデータがきれい過ぎたのもあって、 Deep Learningで複雑な法則性を学習するよりは、人が実際に名刺に特化した特徴を考えてモデルを構築したほうが、精度が上がった、ということだったのかもしれません。

常楽様： Deep Learningのみならず、他にもさまざまな手法を考慮したうえで、いかに最適な手法を選択、混合させるかが今回のコンペティションで上位に食い込むカギだったのではないかと思いました。

違う会社なのに同じ会社の中で一丸となって仕事をしているようだった

コンペティションを通じて、データサイエンスラボ（現・SIGNATE）と一緒に仕事をしていかがでしたか？

江崎様：普通外部に業務を一部委託する場合、それぞれ独立して業務を行わなければいけないため、お互いのことがわからないまま仕事が進行していくと思うのですが、データサイエンスラボ（現・SIGNATE）様と一緒に仕事をしている間はそんなことはなく、あたかも一緒の職場にいるかのように仕事ができたのがとてもよかったと思います。実際、＋αでチュートリアル(https://deepanalytics.jp/contents/sansan_tutorial_1 : (2018-04-01 リンク失効済み))を作成してくださったり、 dots（https://eventdots.jp/）のイベントでそのコードに関して発表してくださったりして、結果入賞者の中にもそのコードを活用してくれる人がいました。

分析ができるだけでなく、データを活用する目的を明らかにできるデータサイエンティストがほしい

今回のコンペティションはデータサイエンティストに出会う目的もあったわけですが、Sansanで採用したいと思うのは、どのようなデータサイエンティストですか？

江崎様：今までは名刺のデータ化を行うだけでしたが、最近ではデータを活用して事業の幅を広げようという動きがあって、 11月1日（2016年）にData Strategy & Operation Centerという部署ができました。名刺データをただ分析するというのではなく、まずは目的を明らかにし、それを実現するためにどのような情報が必要かを整理し、社内にあるデータを活用したり、足りないデータを外から集めたりできるデータサイエンティストの方に来ていただきたいです。

常楽様：画像処理や機械学習などのスキルセットを上げていく事を楽しめる方とお会いしたいと思います。また、ビジネス的なセンスとして新たな価値を一緒に考えられる方であればなおお会いしたいと思います。僕らの持っているデータというのはフェイスブックやリンクドインなどと比べても、情報の網羅性と継続性があると思います。人同士のネットワークの中から価値を見出してくれるようなデータサイエンティストの方に来ていただきたいと思っています。

DeepAnalytics（現・SIGNATE）には会員数を増やしてもっと大きくなってほしい

今後のDeepAnalytics（現・SIGNATE）に期待することを教えていただけますか？

常楽様：伸びしろとしてあえて言うならば、面白いコンペティションやコンテンツを増やして頂き、データサイエンティスト同士で活性化して欲しいですね。自ずと会員数*5も増えてくると優秀な方とも出会える機会が増えることを期待しています。

江崎様：今後の新しいクライアントさんのためにもデータの準備などのサポートをこれまで通りしっかりやることで、よいデータと問題ができていくと思います。また、コンペティションのみで終わるのではなく、次につながるように、企業間や企業とユーザーのつながりの場を創ってもらいたいと思います。

本日は貴重なお話ありがとうございました。

*1:Optical Character Recognitionの略で、光学文字認識のこと。画像内の文字を認識するための技術の総称。
*2:例えば会社名、名前、電話番号など会社に所属している人の特徴を表したもの。
*3:参加者のスコアを相対的に評価するための基準となるスコア。
*4:多層ニューラルネットワークをモデルとした学習アルゴリズムの総称。画像認識の分野で特に強い。
*5:2017年1月当時の会員数は約2,900人。