UEPIのブログ

機械エンジニアの私生活から仕事のことまで徒然なるままに

自動で画像収集!?プログラミング始めてみた4(python)

UEPiです!

 

今回はタイトルにあるように、python で指定したサイトの画像を自動で収集するプログラムを作成してみたいと思います!

 

参考サイト

くぐります!色々出てきますねえ。

出てくるねぇ。。多いねぇ。。

みんあ微妙に違う。。

どうやらrequests , BeautifulSoup, lxmlがいるらしい。

ここが参考になりそうだ!

【コード公開】【Pythonスクレイピングで特定URL内の画像を丸ごと収集


【コード公開】【Python】スクレイピングで特定URL内の画像を丸ごと収集 | Analytics Board | python・Reactを勉強したい初心者のための入門サイト

 

コーディング

参考にしながら書き書きコピペコピペ…(ほぼコピペ)

f:id:UEPI:20190405230014p:plain

コード

今回はUEPiのブログから画像をスクレイピングしてみます。

URL:https://uepi.hatenablog.jp/entry/2019/04/01/060346

上記URLには下記の画像があるので、それらが事前に用意しておいたimgフォルダに保存されるはず。

 

f:id:UEPI:20190405230455p:plain

ブログ画像

実行

Ctrl + Enterで実行!

completed!と出ているのでできてるっぽいですね!

 

f:id:UEPI:20190405230721p:plain

実行

フォルダを見ると、URLに掲載されている画像がimgフォルダに保存されているのがわかります。

 

f:id:UEPI:20190405230921p:plain

imgフォルダ

こんな簡単に任意のサイトの画像をスクレイピングできるんかぁと満足したUEPiでした!笑

でも実はこんなに物事は簡単じゃなくて、

画像スクレイピングできないサイトが多々ある!

例えば、美女の画像をたくさん収集したと思い、世界美女ランキングのサイトを作ったプログラムに挿入しても、画像がimgフォルダにありません!!orz

URL:https://ranking-best.net/668

 

スクレイピングできない原因

画像の要素を検証で確認してみるとsrc="以降の文字列の終わりが.jpgで終わっていない。。。私のプログラムではendwithが.jpgとか.pngで終わってるからスクレイピングできていないのでしょうか。誰か教えてください。

如何せん興味本位でプログラミングを始めた超初心者なので、原因がわかりません笑

f:id:UEPI:20190405231815p:plain

画像の要素を確認

 

ということで、ひとまずサイトによっては画像のスクレイピングができることが分かったので良しとしましょう!笑

100%できなくても良いので少しずつ前に進んで行きたいと思います!

独りで勉強はなかなか難しいですな!

 

最後まで読んでいただきありがとうございました!

誰か私にpythonをレクチャーください!笑

 

いいね