Python查看本周口碑电影
1. 查看豆瓣周口碑榜的电影列表
执行结果展示:
1 | 查看豆瓣一周口碑榜: |
2. 准备工作
- 安装Python环境。详见安装Python3.7
- 使用pip3安装requests、lxml模块。参考使用pip3安装Numpy模块
- 运行平台:终端或Python IDE软件(eg.PyCharm)
3. 练习1:查看豆瓣一周口碑榜
代码比较简单,如下所示:
1 | # 查看豆瓣一周口碑榜 https://movie.douban.com/ |
关键点总结:
- 网址,eg.上述事例代码中的
https://movie.douban.com/
- 数据格式,eg.上述事例代码中的
'//td[@class="title"]//a/text()'
- 具有一定规律,可通过查看 HTML 源码(浏览器 F12)得出
- 其中:
//td
:相当于大目录;[@class="title"]
:相当于小目录;//a
:这个相当于最小的目录;/text()
:这个是提取其中的数据。
4. 练习2:查看豆瓣-西安-影讯-上映内容
代码如下:
1 | import requests |
运行结果:
1 | ['港珠澳大桥', '预告片', '下一任:前任', '预告片', '悟空奇遇记', '预告片', '猫公主苏菲', '预告片', '国礼', '预告片', '大破天门阵', '柔情史', '预告片', '罗马', '预告片', '大侦探皮卡丘', '预告片', '进京城', '预告片', '一个母亲的复仇', '预告片', '欢迎来北方II', '预告片', '半边天', '预告片', '一路疯癫', '预告片', '周恩来回延安', '预告片', '海蒂和爷爷', '预告片', '企鹅公路', '预告片', '妈阁是座城', '预告片', '致命梦魇', '预告片', '音乐家', '预告片', '你好现任'] |
5. 备注
虽然实例代码比较简单,但实际中运行时仍会面临很多问题,比如:
- 网页数据内容的规则难以归纳
- 查看的数据不规范(需进一步处理)
- 大部分网站拥有反Pa机制等