在命令行下的Ubuntu系统需要使用Selenium来爬取网页。
首先
apt update
apt install firefox
pip3 install selenium
cd /usr/bin
下载firefox的驱动 geckodriver https://github.com/mozilla/geckodriver/releases
wget https://github.com/mozilla/geckodriver/releases/download/v0.29.1/geckodriver-v0.29.1-linux64.tar.gz
tar -xzvf geckodriver-v0.29.1-linux64.tar.gz
chmod +x geckodriver
python下交互
切记 命令行下务必设置无头模式
from selenium import webdriver
from selenium.webdriver.firefox.options import Options
options = Options()
options.add_argument("-headless") #设置无头模式
options.add_argument('window-size=1600x900') #设置分辨率
#options.add_argument('blink-settings=imagesEnabled=false') # 设置不加载图片, 提升速度
d=webdriver.Firefox(executable_path='/usr/bin/geckodriver',firefox_options=options)
d.get("http://google.com")
d.get_screenshot_as_file("cc.png") #保存网页为图片cc.png