爬取糗事百科

作者: 网络编程  发布:2019-07-18

 

python 爬取糗事百科 gui小程序,python糗事

 

序言:临时候无聊看有的滑稽的段子,糗事百科照旧个科学的网站,所以就想用Python来玩一下。也相比简单,就写出来分享一下。嘿嘿

 

环境:Python 2.7 win7

 

以后开班,展开糗事百科网址,先来剖判。地址:

金沙澳门官网 1

 

 

一般像这种都以文件的话,查看源代码就足以看看内容了。

 

金沙澳门官网 2

 

金沙澳门官网 3

 

 

曾经足以见到都是在二个class 为content 的div里面,那样就很简单了,直接上正则表达式来合作就好了。

 

<div.*?class="content">(.*?)</div>

 那样等会再代码里面就足以领到出来段子内容了,再来看一下分页。

金沙澳门官网 4

 

分页也非常粗略,很有规律,间接接上页数就行了。

OK  既然 都深入分析完了 那就直接上代码。

 

#-*- coding: UTF-8 -*-
# author : Corleone
from Tkinter import *
import urllib2,re

def load(page):
        url="http://www.qiushibaike.com/text/page/" str(page) "/?s=4937798"
        user_agent="Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.113 Safari/537.36"
        headers={'User-Agent':user_agent}
        res=urllib2.Request(url,headers = headers)
        html = urllib2.urlopen(res).read()
        reg=re.compile(r'<div.*?class="content">(.*?)</div>',re.S)
        duanzi=reg.findall(html)
        return duanzi
i=0
page=1
def get():
    if i==0:
        txtlist=load(page)
        page =1
    if i<20:
        txt.delete(1.0,END)
        txt.insert(1.0,txtlist[i].replace("","").replace("","").replace("</br>","").replace("n","").replace("<br/>",""))
        i =1
        global i
        global page
        global txtlist
    else:
        i=0

def main():
    root=Tk()   # 定义一个窗口
    root.title("Corleone") # 定义窗口标题
    root.geometry('500x500')  # 定义窗口大小
    b=Button(root,text="next",width=25,bg="red",command=get)  # 定义一个按钮
    b.pack(side=BOTTOM)  # 按钮的布局 放在窗口最下面
    global txt
    txt=Text(root,font=("黑体",20)) # 定义一个编辑界面
    txt.pack(expand=YES,fill=BOTH)  # 编辑界面布局 随窗口大小而自动改变
    root.mainloop()   # 让窗口一直在屏幕上显示出来 


main()

 

此地运用了Python自带的图片化分界面库 Tkinter 来做gui分界面。一页大概二十一个段子 next 按键 下一个 看完了 就翻页。

 

金沙澳门官网 5

 

 

哈哈,那样就能够间接看了。OK 好了  那篇小说也很简短,没啥本领含量,莫见怪,代码都以本人事先写的,今后依然能用,就发出来了 : )

 

爬取糗事百科 gui小程序,python糗事 前言:一时候无聊看一些好笑的段落,糗事百科依然个不错的网站,所以就想用Python来玩一下。也...

前言:一时候无聊看一些好笑的段落,糗事百科依旧个不利的网址,所以就想用Python来玩一下。也比较简单,就写出来分享一下。嘿嘿

 

环境:Python 2.7 win7

 

近期开始,展开糗事百科网站,先来剖判。地址:

金沙澳门官网 6

金沙澳门官网 , 

 

诚如像这种都以文本的话,查看源代码就能够看看内容了。

 

金沙澳门官网 7

 

金沙澳门官网 8

 

 

曾经能够见到都以在两个class 为content 的div里面,那样就很简短了,直接上正则表明式来合营就好了。

本文由金沙澳门官网发布于网络编程,转载请注明出处:爬取糗事百科

关键词: 金沙澳门官网

上一篇:金沙澳门官网VS2017调试闪退之Chrome
下一篇:没有了