线程爬取糗事百科

数据挖掘
线程爬取糗事百科

多线程爬取糗事百科Queue(队列对象)Queue是python中的标准库,可以直接import Queue引用;队列是线程间最常用的交换数据的形式 python下多线程的思考 对于资源,加锁是...

JSON模块与JsonPATH

数据挖掘
JSON模块与JsonPATH

数据提取之JSON与JsonPATHJSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,它使得人们很容易的进行阅读和编写。同时也方便了机器进行解析和生成...

爬取糗事百科段子

数据挖掘
爬取糗事百科段子

爬取糗事百科段子 使用requests获取页面信息,用XPath / re 做数据提取 获取每个帖子里的用户头像链接、用户姓名、段子内容、点赞次数和评论次数 保存到 json 文件内 参...

什么是XML

数据挖掘
什么是XML

什么是XML XML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标...

使用XPath的爬虫

数据挖掘
使用XPath的爬虫

使用XPath的爬虫现在我们用XPath来做一个简单的爬虫,我们尝试爬取某个贴吧里的所有帖子,并且将该这个帖子里每个楼层发布的图片下载到本地。12345678910111213141516171...

使用正则表达式re模块

Python
使用正则表达式re模块

使用正则表达式re模块为什么要学正则表达式实际上爬虫一共就四个主要步骤: 明确目标 (要知道你准备在哪个范围或者网站去搜索) 爬 (将所有的网站的内容全部爬下来) 取 (去掉对我们没用处的数据...

urllib库的使用

数据挖掘
urllib库的使用

urllib库的使用所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,我们先学习urllib。 在 python2 中,u...

Requests的使用

数据挖掘
Requests的使用

Requests的使用Requests: 让 HTTP 服务人类虽然Python的标准库中 urllib 模块已经包含了平常我们使用的大多数功能,但是它的 API 使用起来让人感觉不太好,而 R...

×
  • {title}