博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python爬虫-基础入门-爬取整个网站《1》
阅读量:4356 次
发布时间:2019-06-07

本文共 608 字,大约阅读时间需要 2 分钟。

python爬虫-基础入门-爬取整个网站《1》

描述:

  使用环境:python2.7.15 ,开发工具:pycharm,现爬取一个网站页面(http://www.baidu.com)所有数据。

python代码如下:

1 # -*- coding:  utf-8 -*- 2  3 import urllib2 4  5 def baiduNet() : 6  7     request = urllib2.Request("http://www.baidu.com") 8     response = urllib2.urlopen(request) 9     netcontext = response.read()10 11     file = open("baidutext.txt","w")12     file.write(netcontext)13 14 15 if __name__ == "__main__" :16     baiduNet()

 

执行后baidutext.txt数据,部分截图如下:

 

打开浏览器,访问百度,鼠标右键页面,查看源代码,如下:

 

使用代码爬取到的页面数据和源网站页面数据是一样的,爬取网页成功。

 

如有问题,欢迎纠正!!!

如有转载,请标明源处:

 

转载于:https://www.cnblogs.com/Charles-Yuan/p/9903221.html

你可能感兴趣的文章
【转】globk和glorg中使用的apr文件
查看>>
导航,头部,CSS基础
查看>>
PostMessage 解析
查看>>
Java语法基础(一)
查看>>
as3 sort
查看>>
hdu 2680 Choose the best route Dijkstra 虚拟点
查看>>
26. Remove Duplicates from Sorted Array java solutions
查看>>
[bzoj1185] [HNOI2007]最小矩形覆盖
查看>>
全景图制作详解
查看>>
React之todo-list
查看>>
HDUOJ-----Computer Transformation
查看>>
HDUOJ-----2838Cow Sorting(组合树状数组)
查看>>
自定义控件之---抽屉式弹窗控件.
查看>>
一款纯css3实现的机器人看书动画效果
查看>>
加班与效率
查看>>
轻量级Modal模态框插件cta.js
查看>>
MyEclipse下SpringBoot+JSP整合过程及踩坑
查看>>
重定向和管道
查看>>
实验五
查看>>
STL学习笔记(第二章 C++及其标准程序库简介)
查看>>