DSC_3829

竹村彰通さんの『データサイエンス入門』(岩波新書)を読みました。

本書は近年話題となっている第四の科学であるデータサイエンスに関する入門書です。

本書はデータの整え方などがのっているわけではなく、あくまでデータサイエンスという言葉を多くの人に知ってもらうために書かれた本なので、すでにデータサイエンスについてあるていど知識がある方には物足りなく感じるかもしれません。

ただ、今後仕事などでデータサイエンスを使う可能性があるので概要を知りたいという方にはおすすめできる一冊となっています。

以下簡単に内容をまとめていきます。



データサイエンスとは


データサイエンスとは統計学と情報学と各専門分野に関する知識を併せ持った学問である。インターネットの普及がきっかけで大量のデータ(ビッグデータ)が得られるようになったことで、ビッグデータを分析し処理する手法が求められた。これがデータサイエンスの始まりである。

ビッグデータを処理することで今後の需要や売上を予測したりするなど、データを参考に未来を予測することができるようになる。これだけだと従来の統計学とあまり変わらないと感じるかもしれないが、データサイエンスは数字のデータを信じるだけではなく各専門分野に関する知識を生かしていくことに特徴がある。

データサイエンスを行うことができる人材のことをデータサイエンティストという。近年、海外の大学ではデータサイエンティスト学科が専門でできるほどデータサイエンティストは社会的需要がある。

一方、日本ではデータサイエンティストの育成が他の先進国と比べて遅れている。しかし、2017年に旧帝大と滋賀大学でデータサイエンス学部が設立されようやく国内でのデータサイエンティストの育成が始まった。

また、大学以外では高校数学で以前まであまり取り扱われていなかった統計の分野をもっと積極的に取り扱うように学習指導要領が改訂された。




ビッグデータとは


新聞などを読んでいるとビッグデータという言葉がたびたび出てきますが、今までのデータと比べてどう違うのかあまり明言されていません。

ビッグデータとはインターネットやセンサーの発展によりこれまで容易に収集できなかったデータが収集できるようになりました。従来のデータは母数が少ないという問題点がありましたが、各技術の発達によりこの問題が解消されました。

ビッグデータの分かりやすい例としてSNS上にアップロードされた画像やテキストデータなどがあります。

テキストデータを活用した例として、特定の話題毎に文書を分類するなどがあります。


データサイエンスを学ぶ方法


本書ではデータサイエンスを学ぶ方法についても書かれていたので以下に簡単にまとめていきます。


1. 統計学と情報学を学ぶ
データサイエンスは統計学と情報学ととても結びつきが強い学問です。そのため、統計学についての基本知識必要となります。また情報学においては機械学習の知識が必要となります。

最近では統計学を無料で学習することのできるeラーニングなどがあります。著者は無料のオンライン講座として以下のページを推奨していました。

http://gacco.org/

ただ、このページは受講可能な講座が期間限定となっているためタイミングが合わなかった場合は学びたい情報が得られない場合があるので、統計学と機械学習の知識を得るには私は以下の二つのサイトを活用したほうが良いと思います。

・Aidemy
https://aidemy.net/courses/find-a-course

・codExa
https://www.codexa.net/

Aidemyではプログラミング言語であるPythonと機械学習、深層学習の講座を無料で受講することができます。無料講座の数は少ないもののデータサイエンスティストとして求められる必要最低限の知識は得ることができると思います。

codExaではPythonと統計学、線形代数の講座を無料で受講できます。codExaを受講した後にもう少し深く数学的知識を得たいと思った場合、書籍を購入するなどをして学習するのが良いと思います。



2. ビッグデータの処理を実践してみる
統計学と情報学の知識を得ただけですぐにデータサイエンティストになれるわけではありません。実際に実践を通してビッグデータの処理方法を学ぶ必要があります。

著者はビッグデータの処理を実践するのに以下の二つのサイトを活用すべきだと言っています。

・kaggle
https://www.kaggle.com/

・SIGNATE
https://signate.jp

kaggleはオンラインのデータ解析コンピティションのサイトです。世界中の企業がデータサイエンティストをもとめて、様々な課題についてのコンピティションが常時解説されています。コンピティションの上位入賞者には賞金もでます。ただこのサイトは英語のサイトであるため、基本的な英語が読めることが前提となっています。

SIGNATEはkaggleの日本バージョンだと考えてもらえば大丈夫です。日本語のサイトなので英語ができない場合でも大丈夫です。kaggleと違ってコンピティションの数が少ないという欠点はありますが、kaggleよりもチュートリアルが充実しているので、入門としてはkaggleよりもSIGNATEの方が良いかもしれません。


最後に


本書ではブログでまとめた内容の他にもデータサイエンスの歴史、統計学の歴史、データとは何かなど様々なことについて書かれているのでデータサイエンスに興味がある方はぜひ一度読んでみてください。