导航:首页 > 电影影评 > 电影网站的数据怎么爬取

电影网站的数据怎么爬取

发布时间：2024-06-22 15:15:46

① 从电影网站爬取数据并进行可视化分析会用到哪些数据

从电影网站爬取数据并进行可视化分析会用到的数据如下。
1、beautifulsoup、re、urllib库。
2、SQLite包，数据可视化方面主要用到flask框架、echarts和wordcloud等。
3、此类数据可以搭建简单的数据可视化网站。

② Python爬虫实战（1）requests爬取豆瓣电影TOP250

爬取时间：2020/11/25
系统环境：Windows 10
所用工具：Jupyter NotebookPython 3.0
涉及的库：requestslxmlpandasmatplotlib umpy

蛋肥想法： 先将电影名称、原名、评分、评价人数、分类信息从网站上爬取下来。

蛋肥想法： print数据列表后发现电影原名、分类信息等存在不需要的字符，需预先处理；同时因为后续想做一个豆瓣电影TOP250的维度分布图，而同一电影存在多个发行国家、类型（如“法国美国 / 剧情动作犯罪”），为了简（偷）便（懒），这里均取第一个作为记入的数据；最后将数据保存为xlsx。

蛋肥想法： 蛋肥想知道在豆瓣电影TOP250中年份、国家、类型的维度数据，为了练手，使用刚才保存成xlsx的数据，并分别画成雷达图、柱形图、扇形图。

③ 豆瓣电影数据分析

这篇报告是我转行数据分析后的第一篇报告，当时学完了Python，SQL，BI以为再做几个项目就能找工作了，事实上……分析思维、业务，这两者远比工具重要的多。一个多月后回过头来看，这篇报告虽然写得有模有样，但和数据分析报告还是有挺大差别的，主要原因在于：a.只是针对豆瓣电影数据分析太过宽泛了，具体关键指标到底是哪些呢？；b.没有一个确切有效的分析模型/框架，会有种东一块西一块的拼接感。
即便有着这些缺点，我还是想把它挂上来，主要是因为：1.当做Pandas与爬虫(Selenium+Request)练手，总得留下些证明；2.以豆瓣电影进行分析确实很难找到一条业务逻辑线支撑，总体上还是描述统计为主；3.比起网上能搜到的其他豆瓣电影数据分析，它更为详细，可视化效果也不错；

本篇报告旨在针对豆瓣电影1990-2020的电影数据进行分析，首先通过编写Python网络爬虫爬取了51375条电影数据，采集对象包括：电影名称、年份、导演、演员、类型、出品国家、语言、时长、评分、评论数、不同评价占比、网址。经过去重、清洗，最后得到29033条有效电影数据。根据电影评分、时长、地区、类型进行分析，描述了评分与时长、类型的关系，并统计了各个地区电影数量与评分。之后，针对演员、导演对数据进行聚合，给出产量与评分最高的名单。在分析过程中，还发现电影数量今年逐步增加，但评分下降，主要原因是中国地区今年低质量影视作品的增加。

另外，本篇报告还爬取了电影票房网（ http://58921.com/ ）1995-2020年度国内上映的影片票房，共采集4071条数据，其中3484条有效。进一步，本文分析了国内院线电影票房年度变化趋势，票房与评分、评价人数、时长、地区的关系，票房与电影类型的关联，并给出了票房最高的导演、演员与电影排名。

清洗、去重后，可以看到29033条数据长度、评分、评论数具有以下特点：

结合图1(a)(b)看，可以看到电影数据时长主要集中在90-120分钟之间，向两极呈现阶梯状递减，将数据按照短(60-90分钟)，中(90-120分钟)，长(120-150分钟)，特长(>150分钟)划分，各部分占比为21.06%, 64.15%, 11.95%, 2.85%。

结合图2(a)看，可以看到我们采集到的电影数据评分主要集中在6.0-8.0之间，向两极呈现阶梯状递减，在此按照评分划分区间：2.0-4.0为口碑极差，4.0-6.0为口碑较差，6.0-7.0为口碑尚可，7.0-8.0为口碑较好，8.0-10.0为口碑极佳。

这5种电影数据的占比分别为：5.78%, 23.09%, 30.56%, 29.22%, 11.34%

再将评分数据细化到每年进行观察，可以发现，30年内电影数量与年度电影均分呈反相关，年度均分整体呈现下降趋势，2016年电影均分最低，电影数量最多。

进一步做出每个年份下不同评级等级的电影数据占比，可以发现，近年来，评分在[2.0,6.0)的电影数据占比有着明显提升，评分在[6.0,7.0)的数据占比不变，评分在[7.0,10.0)的数据占比减少，可能原因有：

对照图5，可以发现，评分与时长、评论人数的分布大致呈现漏斗状，高分电影位于漏斗上部，低分电影位于漏斗下部。这意味着，如果一部电影的评论人数很多（特别是超过30w人观影），时长较长(大于120min)，那么它大概率是一部好电影。

根据各个国家的电影数量作图，可以得到图6，列出电影数量前十的国家可得表格2，发现美国在电影数量上占第一，达到8490部，中国其次，达6222部。此外，法国，英国，日本的电影数量也超过1000，其余各国电影数量相对较少。这可以说明美国电影有着较大的流量输入，在中国产生了较大的影响。

进一步分析各国电影的质量，依据评分绘制评分箱线图可得图7，在电影数量排名前20的国家中：

接着我们可以探索，哪个国家的电影对豆瓣评分随年份下降的贡献最大，考虑到电影数量对应着评分的权重。根据上述各国的电影评分表现，我们可以猜测电影数量较多的国家可能对年度均分的下降有较大影响。于是，我们再计算出这些国家的年度电影均分，并与整体均分进行比较分析。

再作出中国大陆，中国台湾，中国香港的均分箱线图图9(a)，可以看到，大陆电影均分低于港台电影，且存在大量低分电影拉低了箱体的位置。

分析相关性可得，大陆、香港、台湾电影年度均分与全部评分关联度分别为R=0.979,0.919,0.822，说明滤去台湾和香港电影，大陆电影年度均分的变化趋势与全部评分变化更接近。图9(b)可以进一步反映这一点。

可以看到，大部分类型集中在X×Y=[10000,30000]×[6.00,7.50]的区间范围内，剧情、喜剧、爱情、犯罪、动作类电影数量上较多，说明这些题材的电影是近三十年比较热门的题材，其中剧情类电影占比最多，音乐、传记类电影平均得分更高，但在数量上较少，动作、惊悚类电影评论人数虽多，但评价普遍偏低。

除此之外，还有两块区域值得关注：

根据类型对电影数据进行聚合，整理得到各类型电影评分的时间序列，计算它们与整体均分时间序列的相关性，可得表格4与图11，可以看到剧情，喜剧，悬疑这三种类型片与总分趋势变化相关性最强，同时剧情、喜剧类电影在电影数量上也最多，因此可以认为这两类电影对于下跌趋势影响最大，但其余类别电影的相关性也达到了0.9以上，说明几种热门的电影得分的变化趋势与总体均分趋势一致。

前面已经得知，中美两国电影占比最高，且对于均分时间序列的影响最大。在此，进一步对两国电影进行类型分析，选取几种主要的类型（数量上较多，且相关性较高）进行分析，分别是剧情，喜剧，爱情，惊悚，动作，悬疑类电影，绘制近年来几类电影的数量变化柱状图与评分箱线图可得图12,13,14,15。

对导演与演员进行聚合，得到数据中共有15011名导演，46223名演员。按照作品数量在(0,2], (2,5], (5,10], (10,20], (20,999]进行分组统计导演数量，可以发现，15009名导演中有79.08%只拍过1-2部作品，46220名演员中有75.93%只主演过1-2部作品。忽略那些客串、跑龙套的演员，数据总体符合二八定律，即20%的人占据了行业内的大量资源。

在此，可以通过电影得分、每部电影评论人数以及电影数目寻找优秀的电影导演与演员。这三项指标分别衡量了导演/演员的创作水平，人气以及产能。考虑到电影数据集中可能有少量影视剧/剧场版动画，且影视剧/剧场版动画受众少于电影，但得分普遍要高于电影，这里根据先根据每部电影评论数量、作品数量来筛选导演/演员，再根据电影得分进行排名，并取前30名进行作图，可得图17,18。

结合电影票房网（ http://58921.com/ ）采集到的3353条票房数据，与豆瓣数据按照电影名称进行匹配，可以得到1995-2020年在中国大陆上映的电影信息，分别分析中国内地电影的数量、票房变化趋势，票房与评分、评价人数、时长、地区以及类型的关系，此外还给出了不同导演与演员的票房表现以及影片票房排名。

如图19所示，国内票房数据与上映的电影数量逐年递增，2020年记录的只是上半年的数据，且由于受疫情影响，票房与数量骤减。这说明在不发生重大事件的情况下，国内电影市场规模正在不断扩大。

对电影数据根据类型进行聚合，绘制散点图21，可以发现：

提取导演/演员姓名，对导演/演员字段进行聚合，计算每个导演/演员的票房总和，上映电影均分、以及执导/参与电影数目进行计算，作出票房总和前30名的导演/演员，可得图22,23，图中导演/演员标号反映了票房排名，具体每位导演/演员的上映影片数量、均分、每部电影评价人数、平均时长与总票房在表5、表6中给出。

最后根据电影票房进行排名，得到票房排名前20的电影如表格7所示，可以看到绝大部分上榜电影都是中国电影，索引序号为3、10、12、14、18、19为美国电影，这也反映了除国产电影之外，好莱坞大片占据较大的市场。

本篇报告采集了1990-2020年间豆瓣电影29033组有效数据，从豆瓣电影的评分、时长、地区、类型、演员、导演以及票房等信息进行分析评价，主要有以下结论：

④ 怎样用python获取电影

实验室这段时间要采集电影的信息，给出了一个很大的数据集，数据集包含了4000多个电影名，需要我写一个爬虫来爬取电影名对应的电影信息。

其实在实际运作中，根本就不需要爬虫，只需要一点简单的Python基础就可以了。

前置需求：

Python3语法基础

HTTP网络基础

===================================

第一步，确定API的提供方。IMDb是最大的电影数据库，与其相对的，有一个OMDb的网站提供了API供使用。这家网站的API非常友好，易于使用。

第二步，确定网址的格式。

第三步，了解基本的Requests库的使用方法。

⑤ Python中怎么用爬虫爬

Python爬虫可以爬取的东西有很多，Python爬虫怎么学？简单的分析下：
如果你仔细观察，就不难发现，懂爬虫、学习爬虫的人越来越多，一方面，互联网可以获取的数据越来越多，另一方面，像 Python这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。
利用爬虫我们可以获取大量的价值数据，从而获得感性认识中不能得到的信息，比如：
知乎：爬取优质答案，为你筛选出各话题下最优质的内容。
淘宝、京东：抓取商品、评论及销量数据，对各种商品及用户的消费场景进行分析。
安居客、链家：抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。
拉勾网、智联：爬取各类职位信息，分析各行业人才需求情况及薪资水平。
雪球网：抓取雪球高回报用户的行为，对股票市场进行分析和预测。
爬虫是入门Python最好的方式，没有之一。Python有很多应用的方向，比如后台开发、web开发、科学计算等等，但爬虫对于初学者而言更友好，原理简单，几行代码就能实现基本的爬虫，学习的过程更加平滑，你能体会更大的成就感。
掌握基本的爬虫后，你再去学习Python数据分析、web开发甚至机器学习，都会更得心应手。因为这个过程中，Python基本语法、库的使用，以及如何查找文档你都非常熟悉了。
对于小白来说，爬虫可能是一件非常复杂、技术门槛很高的事情。比如有人认为学爬虫必须精通 Python，然后哼哧哼哧系统学习 Python 的每个知识点，很久之后发现仍然爬不了数据；有的人则认为先要掌握网页的知识，遂开始 HTMLCSS，结果入了前端的坑，瘁……
但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议你从一开始就要有一个具体的目标。
在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的。这里给你一条平滑的、零基础快速入门的学习路径。
1.学习 Python 包并实现基本的爬虫过程
2.了解非结构化数据的存储
3.学习scrapy，搭建工程化爬虫
4.学习数据库知识，应对大规模数据存储与提取
5.掌握各种技巧，应对特殊网站的反爬措施
6.分布式爬虫，实现大规模并发采集，提升效率

阅读全文

与电影网站的数据怎么爬取相关的资料

热点内容

为什么优酷电影看不了怎么回事发布：2024-06-28 08:51:46 浏览：986

万达一元电影怎么看发布：2024-06-28 08:44:51 浏览：39

今年新出的儿童的电影有哪些发布：2024-06-28 08:36:25 浏览：76

羊与猎人电影免费看发布：2024-06-28 08:24:24 浏览：890

往上端倒水什么电影名发布：2024-06-28 08:18:13 浏览：17

白百何演的电影有什么发布：2024-06-28 08:14:26 浏览：456

怎么去做北京电影学院插班生发布：2024-06-28 08:14:18 浏览：492

一般电影多少幅发布：2024-06-28 08:11:11 浏览：20

嘉禾望岗有什么电影发布：2024-06-28 08:10:34 浏览：557

徐州万达电影票价多少发布：2024-06-28 07:53:54 浏览：514

2018九月份好看的电影发布：2024-06-28 07:48:44 浏览：439

什么电影好看推荐下发布：2024-06-28 07:09:01 浏览：193

有哪些采用了分屏手法的电影发布：2024-06-28 07:08:24 浏览：515

怎么下载狼友电影发布：2024-06-28 06:35:16 浏览：244

女鬼变大鱼是什么电影发布：2024-06-28 06:34:03 浏览：515

泰国电影什么爸爸发布：2024-06-28 06:19:45 浏览：694

雄飞假日电影城怎么样发布：2024-06-28 06:04:41 浏览：297

电影角斗好看吗发布：2024-06-28 05:46:17 浏览：65

泳池大战黑人是什么电影发布：2024-06-28 05:45:41 浏览：968

赌侠2002电影粤语免费发布：2024-06-28 05:37:49 浏览：673