网页图片,顾名思义,就是存储在网页服务器上的图片文件,这些图片可以用于装饰网页,提高用户体验,也可以用于传递信息,在Python中,我们可以通过多种方法获取网页上的图片。
成都创新互联长期为上1000+客户提供的网站建设服务,团队从业经验10年,关注不同地域、不同群体,并针对不同对象提供差异化的产品和服务;打造开放共赢平台,与合作伙伴共同营造健康的互联网生态环境。为海北州企业提供专业的网站设计制作、成都做网站,海北州网站改版等技术服务。拥有十多年丰富建站经验和众多成功案例,为您定制开发。
1、使用requests库和BeautifulSoup库
我们需要安装requests库和BeautifulSoup库,可以使用以下命令进行安装:
pip install requests pip install beautifulsoup4
接下来,我们可以使用requests库获取网页内容,然后使用BeautifulSoup库解析HTML,最后通过查找img标签的src属性获取图片链接。
import requests from bs4 import BeautifulSoup url = 'https://www.example.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') img_tags = soup.find_all('img') for img in img_tags: img_url = img['src'] print(img_url)
2、使用Scrapy框架
Scrapy是一个强大的网络爬虫框架,可以用来抓取网页数据,我们需要安装Scrapy库:
pip install scrapy
接下来,我们可以创建一个Scrapy项目,并编写爬虫代码,在爬虫中,我们可以通过XPath或CSS选择器定位到img标签,并提取图片链接。
3、使用Selenium库
Selenium是一个自动化测试工具,也可以用来爬取网页数据,与requests库相比,Selenium可以模拟用户操作,如点击按钮、滚动页面等,这样,我们可以获取动态加载的图片,我们需要安装Selenium库:
pip install selenium
接下来,我们需要下载浏览器驱动程序(如ChromeDriver),并将其添加到系统路径中,我们可以使用Selenium库打开网页,定位到img标签,并获取图片链接,Selenium相对较慢,因为它需要加载整个网页,它通常不适用于抓取大量图片。
我们可以使用PIL库(Python Imaging Library)或OpenCV库将获取到的图片保存到本地,我们需要安装PIL库或OpenCV库:
pip install pillow opencv-python
接下来,我们可以使用以下代码将图片保存到本地:
from PIL import Image import requests from io import BytesIO from bs4 import BeautifulSoup import cv2 as cv2 import numpy as np from urllib.parse import urljoin from pathlib import Path import os url = 'https://www.example.com' response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') img_tags = soup.find_all('img') save_path = 'images' 设置图片保存路径 os.makedirs(save_path, exist_ok=True) 如果目录不存在,则创建目录 for img in img_tags: img_url = img['src'] 获取图片链接 img_name = os.path.basename(img_url) 获取图片文件名(不包括扩展名) img_data = requests.get(img_url).content 获取图片数据 img_np = np.array(Image.open(BytesIO(img_data))) 将图片数据转换为NumPy数组 img_np = cv2.cvtColor(img_np, cv2.COLOR_BGR2RGB) 将图片从BGR格式转换为RGB格式(可选) Path(save_path, img_name).save(f'{save_path}/{img_name}') 将图片保存到指定路径(可选)
1、如何处理跨域请求?
答:如果网站使用了CORS(跨域资源共享)策略,我们可以直接使用requests库获取图片;否则,我们需要在目标网站上设置允许跨域请求,我们还可以使用代理IP绕过地域限制,具体方法如下:
网站标题:python怎么获取网页图片
URL标题:http://www.mswzjz.com/qtweb/news24/193974.html
网站建设、网络推广公司-创新互联,是专注品牌与效果的网站制作,网络营销seo公司;服务项目有等
声明:本网站发布的内容(图片、视频和文字)以用户投稿、用户转载内容为主,如果涉及侵权请尽快告知,我们将会在第一时间删除。文章观点不代表本网站立场,如需处理请联系客服。电话:028-86922220;邮箱:631063699@qq.com。内容未经允许不得转载,或转载时需注明来源: 创新互联