フレームワークというと初期設定や内容理解に時間が、、、と思われるかもしれませんが、今回は bottle.py と index.html、 スクレイピング用Pythonファイルの 3つのみ使います。

Jupyter Notebook は、Webスクレイピングしていく中で最終抜き取りたいデータまでのプログラム加工に便利なため、使用します。

今回は、Webスクレイピングで有名な「Beautiful Soup4」を使って作業していきます。

シュフティ新規アカウント作成するも、データ反映されないためトップユーザーの Y.Matsuzaki_fortyoneさんのプロフィールを参考にさせて頂きました。ご了承ください。

403:アクセスしたページはインターネット上に存在するが、閲覧することが許可されていません。

あとの2件は読み込み可能なので、クラウドワークスとシュフティの2つからプロフィールデータを引用してみます。

まずは自分のプロフィールページ https://crowdworks.jp/public/employees/14218 にアクセスして、実績数の CSS を確認。

span.score contracts とスクレイピングに適した CSS です。

欲しいデータを引用できたので、一旦ここで Webページに表示される作業をしてみます。

Pythonでスクレイピングしたデータを変数化して、それを Bottle の書式にあてはめることでスクレイピングしたデータをWeb上に表示できます。

そして指定したローカルホスト http://localhost:1029 にアクセスします。

まず scraping.py の方では、『クラウドワークスのデータをスクレイピング』の章でご紹介したコードを get_number1() と get_number2() にモジュール化。

そしてそれを index() 関数内の number1 と number2 という変数に代入。

最後に template() 関数に number1 と number2 を out1 、 out2 に変数化して出力。

こちらは {{out1}}、 {{out2}} とダブル波カッコで先ほどの out1 、 out2 を囲むと出力。

ちょっと見た目が寂しいので、上記の index.html のようにコード編集しています。

シュフティは自分のアカウントがリストアップされていないため、トップユーザーの Y.Matsuzaki_fortyone さんを参考にさせて頂きました。

それでクラウドワークスと同じ要領で作業しようと思った矢先、なんと欲しいデータのCSS構造が他のデータと一緒。つまりデータを特定できないんですね。

そこでシュフティの場合は、段階的にコードを絞って、最終的なデータ抽出に結び付けたいと考えました。

まずWebページの抽出方法を、response.text, "html.parser" から page.content, "lxml" に変えます。

理由は、CSSコードではなくHTMLコードで取得したいデータまでたどり着きたいからです。

次に欲しいデータ(納品実績)の周辺HTMLコードを見ていくと、リストタグの