python抓取数据练习

读入网页加以解析抓取,需要用到的软件包是 requests_html 。我们此处并不需要这个软件包的全部功能,只读入其中的 HTMLSession 就可以。

from requests_html import HTMLSession

我在开始的时候出现错误,提示没有找到requests_html,于是,pip install  requests_html

然后,我们建立一个会话(session),即让Python作为一个客户端,和远端服务器交谈。

session = HTMLSession()

网页里面都有什么内容呢?

我们告诉Python,请把服务器传回来的内容当作HTML文件类型处理。我不想要看HTML里面那些乱七八糟的格式描述符,只看文字部分。

于是我们执行:

print(r.html.text)

这就是获得的结果了:

我们心里有数了。取回来的网页信息是正确的,内容是完整的。

好了,我们来看看怎么趋近自己的目标吧。

我们先用简单粗暴的方法,尝试获得网页中包含的全部链接。

把返回的内容作为HTML文件类型,我们查看 links 属性:

r.html.links

这是返回的结果:

这么多链接啊!

很兴奋吧?

确认该区域就是我们要找的链接和文字描述后,我们鼠标右键选择高亮区域,并且在弹出的菜单中,选择 Copy -> Copy selector。

找一个文本编辑器,执行粘贴,就可以看见我们究竟复制下来了什么内容。

sel = '#__next > div._21bLU4._3kbg6I > div > div._gp-ck > section:nth-child(1) > article > p:nth-child(4) > a'

具体看:https://zhuanlan.zhihu.com/p/34206711

发表评论

邮箱地址不会被公开。 必填项已用*标注