python爬虫之基本知识,python爬虫知识

作者: 网络编程  发布:2019-06-25

双面都以向网页传递数据,最重大的区分是GET格局是直接以链接格局拜访,链接中隐含了富有的参数,当然借使带有了密码的话是一种不安全的取舍,可是你能够直观地观察本人提交了怎样内容。

python爬虫基本知识,python爬虫知识

爬虫简单介绍

      依照百度完善定义:网络爬虫(又被誉为网页蜘蛛,互连网机器人,在FOAF社区中间,更偶然的可以称作网页追逐者),是一种遵照一定的平整,自动地抓取万维网音信的次第依然脚本。此外一些不时使用的名字还会有蚂蚁、自动索引、模拟程序或然蠕虫。     

乘胜大数量的不停提升,爬虫那个技巧日趋走入人们的视线,可以说爬虫是大数额现身的产物,至少本人清除了大数据才了解到爬虫这一本领

随着数据的海量增加,大家须要在互联网络摘取所急需的多寡开始展览协科钻探的深入分析和试验。那就用到了爬虫这一能力,下边就随之我一齐初遇python爬虫!

一、请求-响应

在采取python语言达成爬虫时,主要采纳了urllib和urllib2多个库。首先用一段代码表明如下:

 import urllib
 import urllib2
 url="http://www.baidu.com"
 request=urllib2.Request(url)
 response=urllib2.urlopen(request)
 print response.read()

大家了然叁个网页正是以html为骨架,js为肌肉,css为衣裳所结合的。上述代码所完毕的作用就是把百度网页的源码爬取到本地。

其间,url为要爬取的网页的网站;request发出供给,response是接受央浼后提交的响应。最后用read()函数输出的就是百度网页的源码。

二、GET-POST

两岸都以向网页传递数据,最重视的界别是GET格局是一向以链接格局拜访,链接中包涵了颇具的参数,当然假使含有了密码的话是一种不安全的精选,不过你能够直观地旁观自个儿交到了怎么样内容。

POST则不会在网站上展现全部的参数,但是即使您想一贯查看提交了什么样就不太有利了,大家可以钻探选择。

POST方式:

 import urllib
 import urllib2
 values={'username':'[email protected]','Password':'XXXX'}
 data=urllib.urlencode(values)
 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
 request=urllib2.Request(url,data)
 response=urllib2.urlopen(request)
 print response.read()

GET方式:

import urllib
import urllib2
values={'username':'[email protected]','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url   "?" data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

三、相当管理

金沙澳门官网 ,管理特别时,用到了try-except语句。

import urllib2
 try:
   response=urllib2.urlopen("http://www.xxx.com")
 except urllib2.URLError,e:
   print e.reason

总结

以上所述是笔者给大家介绍的python爬虫基本知识,希望对我们有所帮忙,假诺大家有此外疑问请给自身留言,我会及时回复我们的。在此也极度谢谢大家对帮客之家网址的支撑!

爬虫简介根据百度全面定义:网络爬虫(又被叫做网页蜘蛛,网络机器人,在FOAF社区中间,更一时的称...

POST方式:

二、GET-POST

1 import urllib
2 import urllib2
3 
4 url="http://www.baidu.com"
5 request=urllib2.Request(url)
6 response=urllib2.urlopen(request)
7 print response.read()

通过上述的介绍及代码呈现,大家曾经起来认知了爬虫进度,希望对我们全部支持。

1 import urllib
2 import urllib2
3 values={'username':'2680559065@qq.com','Password':'XXXX'}
4 data=urllib.urlencode(values)
5 url='https://passport.csdn.net/account/login?from=http://my.csdn.net/my/mycsdn'
6 request=urllib2.Request(url,data)
7 response=urllib2.urlopen(request)
8 print response.read()
import urllib
import urllib2
values={'username':'2680559065@qq.com','Password':'XXXX'}
data=urllib.urlencode(values)
url = "http://passport.csdn.net/account/login"
geturl = url   "?" data
request=urllib2.Request(geturl)
response=urllib2.urlopen(request)
print response.read()

POST则不会在网站上海展览中心示全部的参数,然而即使您想平昔查看提交了怎么就不太平价了,大家能够切磋选取。

1 import urllib2
2 
3 try:
4     response=urllib2.urlopen("http://www.xxx.com")
5 except urllib2.URLError,e:
6     print e.reason

本文由金沙澳门官网发布于网络编程,转载请注明出处:python爬虫之基本知识,python爬虫知识

关键词: 金沙澳门官网

上一篇:芝麻寻找爬虫入口,如何寻找爬虫入口
下一篇:没有了