Pythonでページ内の画像URLを正規表現ですべて取ってくる

途中から面倒くなってきて中途半端だけどある程度動くんじゃないか

import urllib2
import re
fp = urllib2.urlopen('https://github.com')
html = fp.read()
fp.close()
repatter = re.compile('<img([^"\']*)src=["\']((https?://)?[\w/:%#\$&\?\(\)~\.=\+\-]+)["\']', re.IGNORECASE)
images = repatter.findall(html)
for image in images:
print image[1]

実行すると画像URLを一覧にする

$ python test.py
https://assets-cdn.github.com/images/modules/home/ghfm.png?v=2
https://assets-cdn.github.com/images/modules/home/gh-windows-app.png

全部書き終わる頃にDOMを解析したほうが楽そうだと思ったので今度それやるか。これ途中からすげーどうでも良くなった

コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です

CAPTCHA