ビッグデータという言葉は嫌い

ビッグデータという言葉が数年前から流行ってみますが、私はこの言葉が嫌いです。

Googleっぽいから

BigTableとかBigQueryとかBigdaddyとかGoogleの分散システムにはBig~~~と名前が付いている場合が多いです。ビッグデータという言葉を使うと、Googleかぶれに見えます。Googleはすごい会社だとは思いますが、絶対正義としてあがめるものではありません。ビッグデータというとなんかGoogleを全肯定しているように聞こえてしまうので嫌です。

また、Googleっぽい言葉は語感も変だから嫌いです。だから、使われているというのもあるのでしょうけど。普通に、massive dataとかlarge-scale dataじゃ駄目なのですか?

流行り言葉だから

流行りの言葉を使うと、重要なところをごまかしているか、わかっていないように感じます。

データのことを指しているならデータと言えばいいじゃないですか?

事実のことを指しているなら事実と言えばいいじゃないですか?

統計のことを指しているなら統計と言えばいいじゃないですか?

数値のことを指しているなら数値と言えばいいじゃないですか?

ビッグデータと言われるとはぐらかされているように思えるので嫌です。この言葉を使う方が馬鹿なのか、使われる方が馬鹿にされているのか、双方が馬鹿なのかはわかりませんが。

サイズ感が分からないから

10年前の1TBと現在の1TBでは全くサイズ感が違うじゃないですか?10年前なら1TBはHDD1個に収まらないから、扱うのはかなり大変でしたが、今ならHDD1個に収まります。オンラインでは難しいが、ローカルなら頑張れば扱えないこともないぐらいのサイズです。

ビッグデータというと、サイズ感も分からなし、大変度合いも分からないです。TB-scale dataでも、untransferable dataでも、HDD-size dataでもいいですが、文脈に合わせてサイズ感が分かる言葉にしてほしい。

1GBのデータも1PBのデータも全部ビッグデータって言っているから話が通じない。

非構造化データ

ビッグデータとは大量の非構造化データのことであるという人がいます。非構造化データってなんですか?構造がないデータって、それただのゴミデータじゃん。

anbe:co,mvkhiyur,m,vuiea;iuvcmvdfeafc;i90801jfdd,;cmnvdalvufh@[q\vdher

とかでなんの説明もないデータだったら確かに非構造化データですわ。しかし、非構造化データってなんやねんと思ってよく聞くと以下のものを言っているように思えます。

全部構造はあります。RDBに入っていないデータならそう言ってほしい。