パナマ文書の技術的側面

今朝はパナマ文書のニュースがトップになっていました。

20160510_10_10_40

国際調査報道ジャーナリスト連合(ICIJ)のサイトで一部が公開されましたが、日本関連では設立された24の法人のほか、400近い出資者などの名前があったそうです。

これらが違法ではないことが問題なんですよね。伊藤忠や楽天、ユニクロの代表なども「適切に税務処理している」と言っていますが、納税者意識を持って適切に収めたいと思うのなら、タックスヘイブンなんかを使う必要はないわけで・・・。

私が注目したのは、この膨大なデータ(ハードディスク一台分だという)をICIJはどのようにして解析したのか。面白い推測があります。

「パナマ文書」解析の技術的側面

このKeiichiro Ono氏のサイトによると、

  • 容量: 2.6TB。大きさとしては一万円程度のハードディスクにすべて納まります。
  • ファイル数: およそ1,150万
  • データ形式: 電子メール、RDBなどのデータベース、PDF文書、画像(おそらく多くは書類のスキャン)、テキストファイル。ファイル数の分布は上のチャートを参照

ものデータを、統計的手法の「グラフ理論」を使って「グラフ(データ構造)」解析したと考えられています。

もともとは一筆書きから発生した理論です。身近な例は電車の路線図。駅(ノード)と路線(エッジ)がどのようにつながっているかを表わしているのですが、線路の実際の形状は無視して、駅や他の路線とのつながりだけを視覚的に分かりやすく表わすことができますね。今回のパナマ文書の場合は、ペーパーカンパニーを<駅:ノード>、人を<路線:エッジ>と置き換えてグラフを書くことができます。しかし、

  • A社の現在の社長はx氏
  • A社はB社の取締役であるY氏によって設立された
  • Y氏は『A社』というキーワードが大量にヒットするメールをZ氏に頻繁に送っている
  • αという住所にA社があり、B社の所在地はβである
  • αとβはグランドケイマン島の、γビル内の同じフロアに存在する
  • Z氏はγビルのオーナーである

こうしたデータが2.6Tバイトもあれば、人間の手には負えません。そこで、これらのデータを<ノード>と<エッジ>としてデータベース化し、グラフの解析ソフト(無料で入手できる)を使ってコンピュータで解析させれば、

X氏とY氏にはA社の創業者とその後継者という繋がりがあり、B社はA社と何らかの繋がりがある。そして会社の登記には名前がないが、Z氏とA社にはY氏を介しておそらく何らかの関係性が存在する。そして両社の所在地から、これらは同一ブローカーが関与して設立されたペーパーカンパニーの可能性がある。そのブローカーはZ氏の可能性がある。

という結果が得られるわけです。

今回公表されたのは、基本的なデータベースとその?がりです。今後グラフ理論による解析が進めば、さらに衝撃的な事実が明らかになる可能性があります。面白いですね。この?がりを読み解いていくのは人間の仕事です。

ICIJのサイトに入って、「Japan」で検索し、ある企業を表示してみました。企業と人が住んでいるところ、オフィスの所在地などがグラフ構造であらわされていました。世界の調査報道は、こうした統計理論、コンピュータソフトを使うまでに進歩しているのですね。

20160510_10_27_53

楽天の三木谷浩史会長は中国に住んでいるんですかね。中華人民共和国福建省福州市に住所を移して、たぶん節税に励んでいる。日本の住民税も払う必要がないのだろう。

20160511_09_20_19


膵臓がんと闘う多くの仲間がいます。応援のクリックをお願いします。

にほんブログ村 病気ブログ 膵臓がんへ
にほんブログ村

にほんブログ村 病気ブログ がんへ
にほんブログ村


スポンサーリンク

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です