この記事ではPythonによるWebスクレイピング入門編【業務効率化への第一歩】について解説します。
「スクレイピングに興味があるけど、基礎すら分からない・・」
という人にオススメなコースです。
「PythonによるWebスクレイピング入門編」で学べること
まずはコース内容を説明します。
- スクレイピングをするための事前準備
- 要素の取得からログインまでの流れ
- 練習サイトでのスクレイピング
- 画像を収集するライブラリの使い方
- より実践的なスクレイピングの手法
「入門編」と書かれているように、スクレイピング初心者用のコースです。
まずはスクレイピングの動かし方を学んで、そのあとに実際のサイトからデータを取得していきます。
スクレイピング経験のある人には物足りなく感じるかもしれません。
基礎中の基礎を学べるので、スクレイピング未経験者にぴったりのコースです
「PythonによるWebスクレイピング〜入門編」の良い点
それでは良い点を見ていきましょう。
- 環境構築が不要
- スクレイピングの基礎に重点を置いてる
- 当コース専用のサイトが用意されている
- サンプルコードが豊富なので挫折しにくい
難しいこと(環境構築など)をやらずに済むように、初心者の学習に特化したコースだと思いました。
書いたコードが動かない人のためにサンプルコードも用意されているので、最後まで続けられるような工夫がされていて安心です。
環境構築が不要
Pythonに限らずプログラミングの環境構築はとても難しいです。
解説記事と同じようにコードを書いても、なぜか動かないケースもあります。
環境構築に時間をかけずに済むように、このコースではJupyter Notebookというサービスを使用しています。
SafariやGoogle Chromeなどのブラウザ上でプログラムを動かせる便利なツールです
つまり、「ターミナルを起動したり黒い画面コマンドを入力したり・・」このような面倒くさい作業は必要ありません。
ブラウザだけでスクレイピングするための準備が揃います。
スクレイピングの基礎に重点を置いてる
スクレイピングは一見シンプルですが、可読性の高いコードを目指したりすると、かなり奥深い知識が必要になります。
例えば、このコースで使用するseleniumの公式ページには、いろいろな機能の使い方が書かれています。
- ページ読み込み戦略
- httpプロキシ
- Remote Webdriver
などなど・・難しそうな言葉が並んでますよね。
複雑なサイトのスクレイピングをしない限り、上記のスキルは必須ではありません。
今回のコースでは「とりあえずスクレイピングするための基礎知識」を学ぶことに重点を置いています。
なので、プログラミング初心者でもスムーズに学習することが可能です。
難しい言葉は覚える必要ないので、プログラミングが嫌いになる事はないと思います
当コース専用のサイトが用意されている
受講者限定のスクレイピング練習用サイトが用意されています。
(PythonによるWebスクレイピング入門編【業務効率化への第一歩】
実際のサイトでスクレイピングをする前に練習できるので安心ですね。
初心者でもスクレイピングしやすいサイト設計になっています
サンプルコードが豊富なので挫折しにくい
受講者限定の練習サイトには、スクレイピング用のサンプルコードも用意されています。
自分で書いたコードが動かない・・
という現象にハマったら、最終手段としてサンプルコードをそのまま使うのも良いと思います。
そして、動くことを確認した後に、もう一度コードを書いてみましょう。
まずはサンプルコードを真似て書くのもOKです。
「PythonによるWebスクレイピング〜入門編」の微妙な点
少しだけ気になる点もありました。
- 講座のボリュームは控えめ
- データ加工についての情報はない
購入してから後悔しないように、事前にチェックしておきましょう
講座のボリュームは控えめ
2.5時間のコースなので、ボリュームは多くないですね。
言い方を変えると「本当に必要なことだけが凝縮されてる」と考えられます。
しかし、実際のスクレイピング問題は3つしか用意されてないので、ちょっと少ないかなーと感じました。
- 自動でログインする方法
- ランキングサイトからのデータ取得
- 画像データの取得(1枚だけ)
用意されている課題が少ないので、このコースだけでスクレイピングを完全に理解することは出来ません。
受講が終わったら、実際のサイトでスクレイピングをしてみると良いでしょう。
スクレイピングしやすいサイトをいくつか紹介しておくので、実践力を上げたい人はぜひチャレンジしてください。
データ加工についての情報はない
当コースを最後まで終わらせると、「スクレイピング取得したデータをCSVファイルに書き出す」スキルは身につきます。
しかし、データ加工の方法には触れていません。
スクレイピングで取得したデータを活用するには、データを加工する必要があります。
データ加工にはPandasというライブラリを使うのがオススメです。
スクレイピングを学習するメリット
Pythonには多くのライブラリが用意されていて、できることの汎用性が高いので
- 機械学習
- データ分析
- 作業の自動化
- スクレイピング
などの様々なケースで使われています。
初心者こそ「スクレイピング」を習得すべきだと自分は考えています。
スクレイピングを勉強すべき理由は下記の2つになります。
- 副業の案件が多い
- Python文法の基礎だけ理解すればOK
それぞれ解説します
副業の案件が多い
プログラミングを勉強したいと考えている人は
需要の高いプログラミングで副業をしたい
という目的を持っている人が多いのではないでしょうか?
プログラミングの副業は「Web制作」が人気だと思いますが、単価が低め・レッドオーシャンなどの理由があるので、あまりオススメできません。
2019年頃から参入者が急激に増えてしまったので、今から始めるのは厳しいです。
しかし、スクレイピングであれば
- やってる人が少ない
- そこそこ案件も多い
- Pythonの基礎を理解すればOK
このような理由があるので、スクレイピングでの副業はかなり良いと思います。
Python文法の基礎だけ理解すればOK
機械学習やディープラーニングに興味がある人は、scikit-learnやTensorFlowなどのライブラリを学ぶ必要があります。
この2つは難しめなので、初心者には向いてません。
一方でスクレイピングに必要なスキルは
- Pythonの基本文法
- Request
- Selenium
- BeautifulSoup
この4つだけマスターしておけば、大抵のサイトはスクレイピングできます。
上記のライブラリ(Seleniumなど)はそこまで難しくないので、初心者でも理解しやすいと思います
最後に
いかがだったでしょうか?
今回はPythonによるWebスクレイピング入門編【業務効率化への第一歩】
スクレイピング初心者の最初の1歩にぴったりのコースだと思うので、興味のある人はぜひ学習してみてください。