インターネットの物理学

服部の『Amazonランキングの謎を解く: 確率的な順位付けが教える売上の構造 (DOJIN選書)』を読んで、なかなか興味深かった。(興味深かったけれども、本書は分かる人にしか分からなくて、分かる人は原著論文が読めるレベルという一体誰向けに書いているのか不明な非常に読みづらい本である。私も5割ぐらいしか分からなかった。余談や脱線も多くて、構成も稚拙だ。編集者はもっと頑張って欲しい。)

この一年以内に読んだ本で最も面白かったのは、バラバシの『新ネットワーク思考―世界のしくみを読み解く』という本であった。

どちらも、インターネット時代に現れた現象を古典力学の側面から切り取とろう試みをしている。服部はAmazonのランキングを、バラバシはWebベージごとのリンクを対象とした。

物理学は名前の通り、光だとか水だとか物質的な現象を対象とした学問であるが、ネタが尽きてきたということもあるのかそれ以外の現象にも手が広がっている。例えば、経済現象を物理学的な方法論で分析しようという試みは経済物理学と呼ばれたりする。

インターネットの普及とともに、インターネットがなければ見られない現象を調べようという試みが行われるようになった。インターネットはデータが取れるから、物理学の手法を試すにはうってつけなのだ。データがないことやもう調べつくされたことが、物理学のボトルネックなので、データも簡易に集められてかつ未開拓な領域に物理学者が押し寄せるのだ。インターネットはCERNで物理学ための道具として発明されたが、インターネットが逆に物理学の対象になっている事実が面白い。

個人的に、ソフトウェアも物理学の対象にできると予想を立てている。ソースコードとその成長の過程を公開するのが当然となっている現在、ソフトウェアも科学の対象にできそうだと思っている。ネットワーク理論だとか統計力学理論が使えそうで、ソフトウェアの成長は熱力学過程とのアナロジーで議論できそうだ。調べたいが、メトリクス収集ツールを作るところからはじめなければならないことと、そこまでやるには趣味ではきついことから、できていない。そして、それが私以外の人にとって何の意味があるのかも分からないので、スポンサーも募りようがない。

リコメンデーションのための相関係数2

ユーザーに対して類似のアイテムを推薦するアルゴリズムのアプローチには、

  1. ユーザーの相関をとるアプローチ、
  2. アイテムの相関をとるアプローチ

がある。今回は2のアイテムの相関をとるアプローチについて。

item A item B item C item D
user 1 2 0 2 1
user 2 3 0 1 3
user 3 2 1 3 1
user 4 2 2 4 X

前回と同様に、4人のユーザーと4個のアイテムがあったとして、それぞれのユーザーが各アイテムに上の表のような評価を与えているとする。user4のitem Dに対する評価は不明で、今これを推定したいとする。

アイテムごとにユーザーの評価のベクトルが与えられる。ここでは、user 1, 2, 3の評価のベクトルを取る。item A では (2, 3, 2), item B では (0, 0, 1), item C では (2, 1, 3), item D では (1, 3, 1) となる。

これらのベクトルの類似度をもって、アイテムの類似度とすることができる。2つのベクトルの類似度は、間の角度によって求められる。便利なので間の角度のコサイン値を類似の尺度とする。これは、コサイン類似度と呼ばれる。[0, 1]の値を取り、1 に近いほど類似度が多きい。

f:id:fjkz:20160701192653p:plain

item a, b のベクトル →p_a, →p_b のコサイン類似度は以下で計算できる。

f:id:fjkz:20160701211219p:plain

ドットは内積、||はベクトルの長さの意味です。

計算してみると、

C(A, D) = 0.95
C(B, D) = 0.30
C(C, D) = 0.64

のとなるので、item D は item A と似ていると言える。

user u の item a に対する評価の予測値は以下で計算する。

f:id:fjkz:20160701212359p:plain

ここで、N は類似度が高いアイテムの集合である。

N = {A} とすると、user D の item 4 に対する評価の予測値は、2となる。

リコメンデーションのための相関係数1

ユーザーに対して類似のアイテムを推薦すること、いわゆるリコメンデーションを機械にさせるのが、浸透している。リコメンデーションのアルゴリズムというのは興味深い。

item A item B item C item D
user 1 2 0 2 1
user 2 3 0 1 3
user 3 2 1 3 1
user 4 2 2 4 X

4人のユーザーと4個のアイテムがあったとして、それぞれのユーザーが各アイテムに上の表のような評価を与えているとする。user4のitem Dに対する評価は不明で、今これを推定したいとする。

アプローチとしては2つあって、

  1. ユーザーの相関をとるアプローチ、
  2. アイテムの相関をとるアプローチ

がある。

今回は1について。

ユーザーごとの相関を計算には、ビアソンの相関係数がもっとも基本的な形だ。

user a, item b との相関係数は以下で計算できる。

f:id:fjkz:20160630210116j:plain

ここで、 P はアイテムの集合であり、 r_i, j は user i のitem j に対する評価であり、 \bar{r_i} は user i のアイテムの評価の平均値である。

相関係数なので[-1, 1]の範囲を取り、1に近いほど類似度が高いことを示している。

今回は user 4 に似たユーザーを知りたいので、 user 4 と user 1, 2, 3 の相関係数を求める。 user 4 には item D の値がないので、 P = {A, B, C} です。

計算してみると、

C(A, D) = 0.50
C(B, D) = - 0.19
C(C, D) = 0.87

となり、user A は user D と高い相関があることが分かる。

user a の item p に対する評価の予測値は、以下の式から求められる。

f:id:fjkz:20160630223945j:plain

ここで、Nは最近傍ユーザーの集合である。

user C を user D の再近傍ユーザーとすると、 user D の item 4 に対する評価の予測値は、

r_pred(D, 4) = 2.67 + 0.87 * (1 - 2.0) / 0.87 = 1.67

となる。

寄付と投資

歳をとったのか世のため人のために多少は貢献できないかなと思うようになった。手っ取り早い手段は寄付をすることだ。世の中にはお金で解決できる問題は多い。ただお金を出すだけで世の中のためになるなら楽なものだ。金は命よりも重いが、負担にならない程度のお金はほとんど痛みもない。時間だとか労力だとか精神力を負担する方のはやはり大変だ。

駅前を歩いていると、しばしば学生団体と思しき若者が寄付を募っている。立派だと思う。ただ、街頭募金を募っている学生は、必要な人に金を届けるルートを持っているのかと疑問がわく。演説を聞いていると、日本赤十字社などのNPOを経由して送金するようだ。

それなら直接そのNPOに送金したほうが確実だと思う。街頭募金の演説がきっかけで、NPOへの直接の寄付が行われるなら、街頭募金を募る活動にも意義はある。ただ、それだと街頭募金の活動の成果が彼らには見えないので、街頭募金を募る人を応援する意味で彼らを信用して彼らを通して寄付を行うのもありうるだろう。

いずれにしても寄付をするならどこかの団体を経由するしかない。集めた寄付金をどのように使うかの判断は任せたい。誰がどれだけ困っているかなんて、なかなか知りようがない。少額の寄付に対して、それを調べるエネルギーは割けない。NPOが適切に寄付金を使ってくれることは、信用するしかない。

そのため、寄付が集まる団体は権威があるところになる。赤十字社だとかユニセフだとか。無名な慈善団体には寄付をしようとはなかなか思わないものだ。慈善事業は志さえあれば誰でもできそうだが、現実には商業と変わらず権威があるところが有利だ。

これは別に決して悪いことではない;お金が本当に困った人の助けのために効果的に使われるのであれば。しかし、実際のところどうなのだろうと疑問に思っている。ただ、私は赤十字社ユニセフよりも有意義な金の使い方を知っているわけでないので、答えはない。

権威のある団体よりも、寄付すべき団体があるのかもしれないが、それも知りようがない。

困っている人が、クラウドファウンディングみたいな形で直接寄付を募れるようにしたらどうだろうと思ったが、これは良くない。クラウド乞食にしかならないし、困っている人が収支報告なんて出せるわけもなく、余計な混乱を招くだけだ。また、そのマッチングを行う場所の運営費用は誰が負担するのだという話になる。ショバ代なんて当然取れない。

なんかうまい方法があるのではと考えて見たが、寄付は一種の投資なので、それが解決できたら投資の問題なんてすべて解決できてしまう。どうも解決する方法はなさそうだ。

『Who Gets What』

アルビン・E・ロス著『Who Gets What――マッチメイキングとマーケットデザインの新しい経済学』を読んだ。本の内容とは別に考えたことを記す。

マーケットデザインというのは経済学・ゲーム理論の応用して効果的なマーケットの制度を設計しようというものである。経済学という学問は、数学の一分野に過ぎなくて、ほとんど数字遊びで現実に存在する問題の解決には全く貢献しない時代が長かったが、近年では経済学の知見を工学的に利用して現実の問題の解決することに成功している。現実に困っている人がいて、その問題の解決ができるということに私は面白さを感じる。

マーケットというのは、2つの集合――例えば、売り手と買い手、男と女、企業と求職者、大学と受験者――のそれぞれの要素を結びつけるシステムのことだ。2つの異なるクラスに属するものを結びつけることをマッチングという。マーケットというのははっきり誰かが定義していると限らない。誰かが何かを探し始めたら、マーケットというのは自然発生する。

しかし、皆が別々の場所・時間でマッチング相手を探していたら効率が悪いので、出会いの場所というのが設置される。*1このマーケットは人工的なもので、そこでのルールとかは設計の余地がある。設計が悪くてマッチングされる組み合わせが適当でなかったり、そのためにマーケットの外で取引が行われたりする。そうすると、みんなが幸せにならない。どのようにマーケットの制度を設計すると、参加者の全員が幸せになるのかを考えるのがマーケットデザインである。経済学というのは皆が幸せになる方法を探求する学問である。

世の中には証券市場に代表とされるような人工的なシステム化されたマーケットも多いのだけれど、そのようになってないマーケットの方が多い。何かと何かを結びつけることは、システムを介さずに行われているものがほとんだ。しかしながら、場所がないところでのマッチングというのは非常にコストがかかるものだ。仲介業というマッチングを行うための専門の業種が存在するほどである。

社会に存在する職業のうち相当部分は、仲介業である。例えば、営業職をしている人って労働人口のうちのかなりの割合を占めている。彼らは何も生み出しているわけではないにも関わらず、こんなにいるのはおかしい;マッチングを効率化する仕組みを作れば生産的な仕事に人口を割くことができる――という見方もできる。あるいは、マッチングというのはそれ自体がそれほどに価値を生み出すものだから、こんなに多くの人を養うことができる――という見方もできる。いずれにせよ、社会で行われている活動のほとんどはマッチングだというのは事実であろう。

今よりももっと高速に安価にマッチングを行うでも、今よりも適したマッチングを行うのでも、どちらのアプローチをとってもマッチングを効率化するようなマーケットを作るというのは、社会的に意味があることだろう。

さて、今私の前にあるコンピュータはインターネットにつながっているわけだが、インターネットというのはこれ以上ないほどにマッチメイキングを行うのに適した装置である。ほとんど全世界の個人が常に接続しているのだ。インターネットのいろいろな使い方が日々考案されているわけだが、何かと何か引き合わせるというのはインターネットの使い方として最も効果的な使用法なのではないかと思う。

インターネットを介したマッチングを行うサービスというのは既に多くあって、ヤフオク、メルカリ、楽天市場Amazonマーケットプレイスリクナビ、等々いくらでも挙げることができる。これらを使うことで、インターネット以前には仲介業者が必要だったり、あるいはインターネットがなければ成立しなかったマッチングというのが達成できるのだ。場所を提供するビジネスモデルをプラットフォームビジネスというそうだが、あたればでかい商売である。

インターネット上のマーケットというのはまだまだ可能性があると思う。本にあるようなゲーム理論をマーケットの設計に活用するアプローチというのは、有効な手法な気がしているのだ。昔、Gale-Shapleyアルゴリズム(受け入れ保留アルゴリズム)に基づいて最適なマッチングを作るという合コン用のAndroidアプリを作った。むき出しの理論のままでは全然使えないけれども、どうにかこのコンセプトを現実に適用できる形に落とし込めないかと未だに思っている。最大多数の最大幸福を実現するような仕組みが世の中に受け入れられると私は信じているし、それが実現した社会がどういうものなのかを見てみたいのだ。

*1:ナンパスポットのように自然に場所ができることもある。

出版業は市場データで効率化できるはず

Amazonは手に入りにくい本が簡単に手に入るのでよくお世話になっている。特に便利だと思うのは、中古本のマーケットプレイスというシステムだ。欲しい本が予め決定しているときに、Bookoffに行くことはない。非常によく出ている本はBookoffで探せば見つかるが、そうでない本がたまたま店舗にある可能性は低い。新本で流通している本は、実店舗で注文することは可能だ。しかし、絶版の本で欲しい本を手に入れるのはマーケットプレイスがなければ難しかっただろう。日本中の中古本がマーケットプレイスで流通しているのだ。かなり珍しい本でない限り、絶版本であってもマーケットプレイスで手に入れることができる。

マーケットプレイスで本を調べていて面白いなと思うことは、中古本の市場がオープンになっていることで、需要と供給で価格が決まっている様子が観察できることだ。マーケットプレイスがあることで、中古本市場の効率性というのが大きく向上しているのだろう。欲しがる人が多くて流通数が少ない本は価格が高いし、逆にベストセラーと言われるような本は数が出ているので価格が低い。

株式市場とかは参加者がグルグル回し合っているからなのか、内部的な運動が大きくて、全く均衡している状態とは思えないが、中古本の市場は投機的な取引がないからなのか単純な需給関係で価格が決まっているように見える。本は状態の差はあれど、中身は同じなので、コモディティであることも市場原理が働く理由なのだろう。新本の価格は再販制度で守られているから、市場というものを感じないが、中古本の価格は市場のリアリティがある。

さて、奇妙だと思うのは、古書とか希少本と呼ばれるようなコレクター性があるものではなくても、まれに絶版本で価格が非常に高いものがあることだ。需要があるにも関わらず、流通数が少ないためだ。何が奇妙だと思うのかというと、出版社はどうして再版しないのかということだ。印刷すれば確実に売れるのに。そういう本を一種類だけ再販しても利益にはならないと思うけれども、数を集めれば結構な利益になるはずだ。

しかし、出版業の商習慣を詳しくは知らないけれども、原稿のデータや出版権を集めてきて、売り出すというのはなかなか難しいことだから実現していないのだろう。インターネット上の公開データという形ではっきりと需要があることが可視化されているにも関わらず、供給ができない現状というのは歯がゆいものがある。出版業は斜陽産業だとずっと言われているが、データに基づいて、工夫すれば延命ぐらいはできそうなのに。

また、街の本屋に関しても、新刊ばっかり入荷して在庫を新鮮な状態に保つのもいいのだけれど、どういう本に需要があるかというのが公開されているのだから、それを利用しない手はない。

中古本の出品数や市場価格を分析したら、いろいろ面白いことが見えて来そうだ。例えば、新刊で発売してから、中古市場に出回るまでのタイムラグが分かれば、新刊が新鮮な状態である期間が分かるだろう。あるいは、出品数が多いにも関わらず、高い価格で推移している本は、きっと新本でも売れるだろう。

また、極端かもしれないが、カスタマーレビューが高い本にウェイトを置いて入荷するという作戦も考えられる。本屋で本を買う行為は、習慣性が強いと思っている。ふらっと入って面白そうなら買う。顧客のロイヤリティっていうのか、一度そういう習慣がついたらなかなか抜けない。本屋で本を買ってそれが面白かったという条件付けができれば、固定客を作れる気がする。

街の本屋からしたら、Amazonは商売敵なのかもしれないが、そこで公開されているデータから、いろいろ試せそうだ。利用できるものは何でも利用したらいいと思う。

Amazonという会社は有益なデータを管理しやすい形で保持していると思うが、そこにアクセスすることは残念ながらできない。どこかにマーケットプレイスのデータを集めて整理して公開しているようなとこはないのだろうか?

コード型ログ(4) Initialization-on-demand Holder

前回: コード型ログ(3) privateなメソッドのテスト - 超ウィザード級ハッカーのたのしみ


必要なときにインスタンスを作ったら、メモリ効率がよくないかと思って変なことをしてしまう悪い例。

class BadSingleton1 {
  private static BadSingleton1 instance;

  // 他の人が勝手にインスタンスを作らないように private にする。
  private BadSingleton1() { };

  static BadSingleton1 getInstance() {
    // 同時に2つのスレッドが null チェックをするとユニークでなくなる。
    if (instance == null) {
      instance = new BadSingleton1();
    }
    return instance;
  }
}

上のようなことをしたければ排他を取る必要がある。しかし、これでは遅い。

class NotBadSingleton1 {
  private static NotBadSingleton1 instance;

  private NotBadSingleton1() { };

  // ユニーク性は保証されるが、同期コストがかかる。
  synchronized static NotBadSingleton1 getInstance() {
    if (instance == null) {
      instance = new NotBadSingleton1();
    }
    return instance;
  }
}

だから、以下のDouble-checked lockingというものが考案された。しかし、実は正しく排他されていないことが知られている。この場合はインスタンス変数がないが、ある場合にはスレッドが競合したときに、getInstance()で返ってくるインスタンスインスタンス変数が初期化されていない可能性がある。

class BadSingleton2 {
  private static BadSingleton2 instance;

  private BadSingleton2() { };

  static BadSingleton2 getInstance() {
    // instance != null だとしても、インスタンスの初期化が終わっていない
    // 可能性が実はある。
    if (instance == null) {
      synchronized (BadSingleton2.class) {
        if (instance == null) {
          instance = new BadSingleton2();
        }
      }
    }
    return instance;
  }
}

初期化を遅延させたかったら、Initialization-on-demand Holderという名前がついている以下の書き方をする。

class GoodSingleton1 {
  private static class Holder {
    private static GoodSingleton1 instance = new GoodSingleton1();
  }

  private GoodSingleton1() { };

  static GoodSingleton1 getInstance() {
    // Holder クラスが初めて呼ばれたときに、instance は生成され
    // ユニークであることは保証される。
    return Holder.instance;
  }
}

しかし、凝ったことをせずに普通に書いたらいい。

class GoodSingleton2 {
  private static GoodSingleton2 instance = new GoodSingleton2();

  private GoodSingleton2() { };

  static GoodSingleton2 getInstance() {
    return instance;
  }
}

Initialization-on-demand Holderを覚えたからと使いたがる人のコードなんて読みたくない。(私もきっとそういうことをやってるけれども……使わないと覚えないし……)