edx-python-for-data-science-course

Pythonでのデータ分析の基本を学ぶならedXも良さそう

先週courseraのMachine Learningを始めたところですが、Python触りたいということもあり、これまで使ったことがなかったedXから勉強に使えそうなコースがないか探したところ、良さそうなコースがありました。

今回教材を選ぶにあたって、
* Pythonに習熟する
* データ分析の基礎を学ぶことができる
という2つの点を重視しました。

前者については、普段自分が書いていない手法を学び直すこと、後者については、ある程度整った分析の基礎的な手法があるのであれば、それをきちんと知っておきたい、ということがモチベーションです。

Kaggleなどを見て学ぶにしても、一つ拠り所になる基本が欲しいと考えました。

ざっくりまとめ

今回の記事で伝えたいことをざっくりまとめます。
* edXは動画の質が普通に良いだけでなく、前後を含めた字幕が出せるので勉強しやすい。
* edXの”UCSandiegoX”の”Python for Data Science”は初学者だけでなく、少し慣れた人の知識整理にも良さそう。
* 但し、始めるなら8月のコースコンテンツ更新の後の方が良さそう。

なお、今回は無料コースの途中までしか受けていない時点での感想です。ご了承ください。

今回選んだコース

今回は、edXの”UCSanDiegoX”の”Python for Data Science”を選びました。

https://www.edx.org/course/python-for-data-science

UCSanDiegoはカリフォルニア大学サンディエゴ校です。

この大学はアメリカの州立大学で、カリフォルニア大学システムを構成する10大学の一つです。

2018年の世界大学ランキング(※1)では31位に位置しています。あくまでも指標にすぎないのであまり意識する必要はないと思いますが、東京大学が46位にあることを考えると、教育のレベルはかなり高いと推察されます。

※1: THE (Times Higher Education))のWorld University Ranking 2018より。(2018年7月22日閲覧)
https://www.timeshighereducation.com/world-university-rankings/2018/world-ranking#!/page/2/length/25/sort_by/rank/sort_order/asc/cols/stats

edXのMicroMasters

edXではMicroMastersという単位取得プログラムのようなものを提供しています。

これは、複数のコースを履修すると取得することができるものです。

今回受講して見ている”Python for Data Science”はUC SanDiegoが提供しているMicroMastersプログラムの一つ、Data Science の中の1コースに位置付けられています。

このプログラムは下記の4つのコースから構成されているようです。

  • Python for Data Science
  • Probability and Statics in Data Science using Python
  • Machine Learning Fundamentals
  • Big Data Analytics Using Spark

MicroMastersを取得するのであれば費用がかかります。
このコースでは2018年7月22日時点で総額$1260、日本円だと13万円ぐらいのようです。
各コースそれぞれの料金の総額に少し割引(10%)が入っているようです。

一応自分は現時点ではまだ様子見段階でもあり、ちょうどコースのコンテンツの変わり目(後述)に重なっていることもあるのでMicroMastersは考えておらず、お金をかけるにしてもコース単品で取ろうかと思っています。

edXでの講義の特徴と感想

コースの感想の前に、courseraとUdacityと比較して感じたedXの特徴を書きます。

1. 基本は英語

日本語はないので、基本的に英語で学習することになります。

2. 動画の質と学習のしやすさ

動画に質や音声は普通に良かったです。
字幕が出せるほか、スピードの調整(0,5x, 0.75x, 1.0x, 1.25x, 1.5x, 2.0x)もできます。

また、courseraやUdacityとの大きな違いとして、英語字幕の全文(transcript)が常に右に表示できることが挙げられます。

screen-shot of edx lecture

(edX, UCSandiego, Python for Data Science, Week1, “Why Python for Data Science”より引用、2018年7月22日閲覧, https://www.edx.org/course/python-for-data-science))

ちょっと置いていかれた時に、動画を止めてすぐに確認できるので、これは非常に便利な機能でした。
上のスクリーンショットでは動画下部の字幕もつけていますが、右の字幕があるので、邪魔なら消しても問題ないです。
右の字幕も消すことができます。

また、全文のダウンロードもできます。
但し、講義資料のスライドは、現在自分が確認した中ではダウンロードできません。

有料に切り替えたらできるのかどうかは不明ですが、あまり期待しない方がよさそうです。

3. 講義の質

一つのコースしか取っていませんが、講義は非常に分かりやすいと感じています。
どちらかというとコースに依存しそうですが…。

4. 選択肢は広く、お金をかける場合もそこまで高くない。

edXの特徴に、開講されているコースの数の多さがあります。
今回も選ぶまでに様々な大学や企業のコースを比較しました。

5. 有料を選んだときのメリット

実はまだちょっと分かっていないところです。

MicroMasterプログラムが有料であるほか、単一のコースを有料にすると修了証の発行ができることは間違いないです。
また、お金を払っている場合のみに解放されるコンテンツがあるようですが、基本的には無償でも学習の主なところは見ることができている印象です。

お金を払うコースでないと認定のための最終試験が受けれないのかもしれませんが、この辺りは未確認です。

講義の内容を考えると、お金を払っても全く問題ないと感じているので、また試した時に結果を書きたいと思います。

Python for Data Scienceの感想

全10週構成のうち、3週目までを終えた感想です。
なお、無料で参加している範囲での感想になります。

コースの内容

今回のコースでは動画+テストがメインという印象です。

3週目からはJupyter NotebookのNotebookをダウンロードして、それを見ながら、あるいは実行しながら講義を聞いていきます。(実行せずに見ているだけでも大丈夫です)。

また、各週の最後に講義内容に基づくテストがあります。

他には、ディスカッション用の掲示板のようなものへの参加(投稿)も可能です。
今のところ1度だけ必須で投稿(1, 2文で自分のモチベーションを説明。投稿の練習のためだと思います)がありましたが、それ以外は特に必須ではない印象です。参加評価に入る可能性もあるかもしれませんが、投げっぱなしでも問題ないと思います。

講義について

講義は非常に分かりやすいです。個人的に、教育への熱意を感じるような内容でした。

また、英語もとても聞き取りやすく、字幕表示も相まって勉強しやすいです。

内容としては、データ分析の基本的な考え方から始まり、Pythonを自分のPCで使えるようにする部分、Jupyter Notebookや各種ライブラリ(Numpy, Pandas, Matplotlib, scikit-learn, nltkなど)の使い方を学びます。

そのため、初めてPythonで分析を学ぶ人にも易しいコースになっていると思います。

自分は最低限の前処理や簡単なモデル作成はできる程度の知識はあるのですが、復習にもちょうど良い感じだったので、少し慣れてきた、ぐらいの人が知識を整理するのにも役に立ちそうです。

3週目の時点では、まだ自分でコードを書く機会が少ない印象はあります。
6週目にMini Projectがあるので、そこでは書くことになりそうですが、そこが少し足りないかもしれません。

3週目の最後のCoding Practiceという項で、有料コース(Verified Certificate program)ではもっとnotebookを書くような内容が示唆されているので、ここ次第ではありますが…。

参加はコースコンテンツが更新されたあとの方が良さそう

自分がVerified Certificate programにするのを躊躇った大きな要因が、コースコンテンツの更新を控えていることです。
Week1のイントロダクションの時点で、下記のような注釈がついていました。

edx-python-for-data-science-finish-limit

(edX, UCSandiego, Python for Data Science, Introduction and Course Information, Syllabus, “Assesment”より引用、2018年7月22日閲覧, https://www.edx.org/course/python-for-data-science))

要は、Certificateが必要な場合は2018年8月10日までに修了するよう、ということですが、始めたのが7月17日ぐらいだったので、さすがに10週分を3週間ぐらいでは無理だと判断しました。普通に仕事もありますし…。

という訳で、もし興味を持った場合もコンテンツ更新まで待った方がいいかと思います。

他の選択肢

ちなみに、edXのデータ分析では、MITやHarvardなどもコースを持っています。

MITはまだ開講前で、9月ごろから本格的に始まるようですので、そちらを待つのもありかと思います。

自分が今回UCSandiegoのコースを取ったのは、Pythonであることと、データ分析の考え方から学び直せそうなこと、あとは無料で試せることとすでに開講していることが決め手でした。

実際に講義を受けて見ないとわからないので、また試してみるのもいいかと思っています。

まとめ

edXでの学習の感想をまとめました。今回とったコースが講義の質もよく、勉強になりました。初学者だけでなく、少し慣れているにも、復習も兼ねておすすめできそうです。

edXは動画の字幕のおかげで勉強しやすいのが個人的にはとてもよかったです。他にも多様なコースがあるので、様々な有名校の講義も受けてみたいところです。

とはいえ、学習は手段でしかないので、きちんとスキルを身につけたあとは、本格的に分析の経験を積む方向に進んでいくのがいいと思います。

やることは多いですが、地に足をつけて一つずつ進めていくのがいいのではないでしょうか。