Python Selenium Chrome Proxy の設定 | SIC - ホームページ制作システム開発

Proxy環境下でSelenium Chromeをヘッドレスモードで使用すると、ページの内容が取得できない。

webdriver.chromeのProxyの設定が間違えていたようで、正しく設定することで内容を取得することができた。

SeleniumでChromeにProxyを設定する方法

from bs4 import BeautifulSoup
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.proxy import Proxy, ProxyType

options = webdriver.ChromeOptions()  
options.add_argument('headless')

desired_caps = options.to_capabilities()
prox = Proxy()
prox.proxy_type = ProxyType.MANUAL
#prox.http_proxy = "ip: port"
#prox.socks_proxy = "ip: port"
prox.ssl_proxy = "ip: port"
prox.add_to_capabilities(desired_caps)

driver = webdriver.Chrome(desired_capabilities=desired_caps)
driver.implicitly_wait(10)

# ブラウザでアクセスする
driver.get("https://www.google.co.jp/")

# HTMLを文字コードをUTF-8に変換してから取得します。
html = driver.page_source.encode('utf-8')
driver.close()
soup = BeautifulSoup(html, "html.parser")
print("---")
print("ページのタイトルは" + soup.title.string)
print("---")

from bs4 import BeautifulSoup

from selenium import webdriver

from selenium.webdriver.chrome.options import Options

from selenium.webdriver.common.proxy import Proxy, ProxyType

options = webdriver.ChromeOptions()

options.add_argument('headless')

desired_caps = options.to_capabilities()

prox = Proxy()

prox.proxy_type = ProxyType.MANUAL

#prox.http_proxy = "ip: port"

#prox.socks_proxy = "ip: port"

prox.ssl_proxy = "ip: port"

prox.add_to_capabilities(desired_caps)

driver = webdriver.Chrome(desired_capabilities=desired_caps)

driver.implicitly_wait(10)

# ブラウザでアクセスする

driver.get("https://www.google.co.jp/")

# HTMLを文字コードをUTF-8に変換してから取得します。

html = driver.page_source.encode('utf-8')

driver.close()

soup = BeautifulSoup(html, "html.parser")

print("---")

print("ページのタイトルは" + soup.title.string)

print("---")

Proxy 設定後の実行結果

---
ページのタイトルはGoogle
---

---

ページのタイトルはGoogle

---

参考：requestsでのProxy設定方法

javascriptで動的に生成された内容を取得する必要がない場合は、こちらでもOK。

proxies = {
    "http":"ip:port",
    "https":"ip:port",
}

# アクセスするURL
r = requests.get("https://www.google.co.jp/", proxies=proxies)

proxies = {

"http":"ip:port",

"https":"ip:port",

}

# アクセスするURL

r = requests.get("https://www.google.co.jp/", proxies=proxies)

SeleniumでChromeにProxyを設定する方法

Proxy 設定後の実行結果

参考：requestsでのProxy設定方法

コメントを残す コメントをキャンセル

コメントを残すコメントをキャンセル