Python 爬取糗事百科段子-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

Python 爬取糗事百科段子

阅读量：6279 次

发布时间：2019-06-22

本文共 1017 字，大约阅读时间需要 3 分钟。

直接上代码

#!/usr/bin/env python# -*- coding: utf-8 -*-import reimport urllib.requestdef gettext(url,page):	headers=("User-Agent","Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36")	opener=urllib.request.build_opener()	opener.addheaders=[headers]	urllib.request.install_opener(opener)	data=urllib.request.urlopen(url).read().decode("utf-8")	userpat='(.*?)
'	textpat='
     
      (.*?)'	userlist=re.compile(userpat,re.S).findall(data)	textlist=re.compile(textpat,re.S).findall(data)	dictionary=dict(zip(userlist,textlist))	x=1	for key,value in dictionary.items():		value=value.replace("\n","")		value=value.replace("
      ","")		value=value.replace("","")		value=value.replace("
      
","\n")		print("第"+str(page)+"页"+str(x)+"用户"+key)		print("内容:"+value)		print('\n')		print("-----------------------------")		x+=1for i in range(1,3):	url="https://www.qiushibaike.com/8hr/page/"+str(i)	gettext(url,i)

执行结果

转载于:https://blog.51cto.com/superleedo/2123509

你可能感兴趣的文章

使用Python脚本检验文件系统数据完整性

使用MDT部署Windows Server 2003 R2

Redhat as5安装Mysql5.0.28

通过TMG发布ActiveSync

Web服务器的配置与管理（4）配置访问权限和安全

吉林出差所见、所闻、所感

RHEL7修改root用户密码

mysqldump导出 timestamp类型数据时区偏差8小时

我的友情链接

中小型企业如ERP选型四大标准

笔记——quota磁盘配额

索引表批量数据装载

@Value("#{}")与@Value("${}")的区别

Zabbix邮件报警设置方法

20145328 《信息安全系统设计基础》第6周学习总结

C语言随笔_类型声明

AIX或LINUX，通过华为存储V3上添加对应LUN组，分配存储资源

监控mysql主从的脚本

用phpmyadimn来连接管理多个数据库

linux java 定时任务

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2025-01-09 19:38:21 当前IP: 18.220.194.186 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我