美利坚
美利坚
5月前 · 10 人阅读

学习爬虫之前,它给我的感觉一直很高深莫测。由于工作性质,业余时经常浏览日本各大网站以获取各种最新资讯。其中日本Yahoo是偶常去的网站。

今天就用Python,用其简单粗暴的爬虫手法抓取Yahoo日本每日最新娱乐资讯。

分享之前我还是要推荐下我自己建的Python开发学习群:628979297,群里都是学Python开发的,如果你正在学习Python ,小编欢迎你加入,今天分享的这个案例已经上传到群文件,大家都是软件开发党,不定期分享干货(只有Python软件开发相关的),包括我自己整理的一份2018最新的Python进阶资料和高级开发教程,欢迎进阶中和进想深入Python的小伙伴。

首先看一下Yahoo每日娱乐新闻的页面地址,从下方图片可以看到页面地址前面是固定的,就末尾的日期是变数。所以如果你要抓取哪天的新闻只要把末尾的日期一改就行了。

那让我们抓取今天的娱乐新闻吧。另外抓完之后直接保存到文本文件里以便查看内容是否OK。

页面地址如下

https://news.yahoo.co.jp/list/?c=entertainment&d=20180111

下面是简单粗暴的爬虫代码

执行爬虫命令

没有报什么错误,说明爬虫代码没有编译错误。那现在就马上确认一下是否生成了文本文件以及文本内容是否是自己想要的。

确认到下方已经生成了页面文件。

再看看里边的内容,确实抓取到所要的页面内容。

好了,今天介绍的简单粗暴的爬虫方法就到这里了。如果要抓取更细的内容还是需要用爬虫框架来实现。

收藏 0
关键词: python 爬虫 抓取 页面 yahoo 粗暴
评论