查看: 231|回复: 10

Pyecharts | 用Python分析了3W+《独行月球》影评数据 ...

[复制链接]

1

主题

1

帖子

3

积分

新手上路

Rank: 1

积分
3
发表于 2022-12-5 14:47:08 | 显示全部楼层 |阅读模式
大家好,我是 【Python当打之年】
本期我们通过分析30000+条电影影评数据,分析一下由沈腾、马丽主演的《独行月球》这部电影观影情况,看看大家对这部国产灾难电影都有哪些看法,希望对小伙伴们有所帮助,如有疑问或者需要改进的地方可以私信小编。
涉及到的库:

  • Pandas — 数据处理
  • Pyecharts — 数据可视化
  • matplotlib — 数据可视化
可视化部分:

  • 折线图 — Line
  • 散点图 — Scatter
  • 楔形图 — Wedge
  • 多边形 — Polygon
  • 词云图 — WordCloud
  • 地图 — Geo
目录
1. 导入模块2. Pandas数据处理
    2.1 读取数据
    2.2 数据大小
    2.3 查看索引、数据类型和内存信息
3. Pyecharts+matplotlib数据可视化
    3.1 《独行月球》评分分布-1
    3.2 《独行月球》评分分布-2
    3.3 每日评论量
    3.4 每小时评论量
    3.5 一周每天每时评论量
    3.6 地理位置分布
    3.7 评论词云
4. 在线运行地址

1. 导入模块
import jieba
import stylecloud
import pandas as pd
from PIL import Image
from collections import Counter
from pyecharts.charts import Geo
from pyecharts.charts import Scatter
from pyecharts.charts import Line
from pyecharts import options as opts
from pyecharts.commons.utils import JsCode
from pyecharts.globals import ChartType
import math
import matplotlib
import matplotlib.pyplot as plt
from matplotlib.patches import Wedge, Polygon
from matplotlib.offsetbox import TextArea, AnnotationBbox
plt.rcParams['font.sans-serif']=['Microsoft YaHei']
plt.rcParams['axes.unicode_minus']=False2. Pandas数据处理

2.1 读取数据

df = pd.read_excel('独行月球.xlsx')
df.head(10)

2.2 数据大小

df.shape()
(34436, 6)一共有34436条影评数据,数据时间分布2022-8-01至2021-08-07。
2.3 查看索引、数据类型和内存信息

df.info()


3. Pyecharts数据可视化


3.1 《独行月球》评分分布-1

def pic():
    df_star = df.groupby('评分')['评论'].count()
    count_sco = list(df_star.values)
    sum_count = sum(count_sco)
    data = [count_sco[0]/sum_count/2]
for i in range(1,len(count_sco),2):
        rate = (count_sco + count_sco[i+1])/sum_count
        data.append(rate/2)
    series = pd.Series(data)
    label = ['5分力荐', '4分推荐','3分还行','2分较差','1分很差','0分极差']
    colors = ['#009688','#26A69A','#4DB6AC','#80CBC4','#B2DFDB','#E0F2F1'][::-1]
    rate_lable = [f'{i*2:.2%}' for i in data]
    fig = plt.figure(figsize=(10,7),dpi = 100,facecolor='#FFEFD5')
    ax=plt.subplot(111,facecolor='#FFEFD5', alpha=.01)

    patches,l_text = ax.pie(
        series,
        colors = colors,
        wedgeprops = dict(width = 0.4),
        startangle = 0,
        textprops = dict(fontsize = 15),
        normalize = False
    )
# 数据标签
    ax.text(-0.45, 0.6, rate_lable[5], fontsize = 18,rotation = 298)
    ax.text(0.53, 0.36, rate_lable[4], fontsize = 17,rotation = 35)
    ax.text(0.64, 0.20, rate_lable[3], fontsize = 16,rotation = 21)
    ax.text(0.7, 0.048, rate_lable[1], fontsize = 14,rotation = 5)

    x = [-1.05,1.05]
    y = [0,0]
    plt.plot(x, y,color="#FFEFD5",alpha=1)
    plt.plot(x, y,color="#FFEFD5",alpha=1)

    plt.text(-0.43, 0.25, '《独行月球》评分分布', fontsize = 20, color = "r"),
    plt.text(-0.32, 0.4, '(制作@公众号:Python当打之年)', color = "#283593", fontsize = 10,alpha = 0.8),
    plt.text(-0.49, 0.13, '数据来源:猫眼电影 采集时间:2022/8/8', color = "r", fontsize = 13,alpha = 0.8),
    plt.legend(patches, label[::-1], loc=0, ncol = 6, fontsize = 11,
               bbox_to_anchor=(0.92, 0.15),handlelength=1, handleheight=1)

    plt.show()



  • 5.0的评分占比达到了74.77%,多半数观众打出了五星好评,三星以上好评更是达到了93%之多,大家对这部电影的整体评价还是很高的。
3.2 《独行月球》评分分布-2

复古版海报:


3.3 每日评论量

line1 = (
    Line(init_opts=opts.InitOpts(bg_color=JsCode(color_js)))
    .add_xaxis(xaxis_data=day_x_data)
    .add_yaxis(
        series_name="",
        y_axis=day_y_data,
        is_smooth=True,
        is_symbol_show=True,
        symbol="circle",
        symbol_size=6,
        linestyle_opts=opts.LineStyleOpts(color="#fff"),
        label_opts=opts.LabelOpts(is_show=True, position="top", color="white"),
        itemstyle_opts=opts.ItemStyleOpts(
            color="red", border_color="#fff", border_width=3
        ),
        tooltip_opts=opts.TooltipOpts(is_show=False),
    )
    .set_global_opts(
        title_opts=opts.TitleOpts(
            title="每日评论量",
            pos_top="5%",
            pos_left="center",
            title_textstyle_opts=opts.TextStyleOpts(color="#fff", font_family='FZYaoTi', font_size=16),
        ),
        xaxis_opts=opts.AxisOpts(
            type_="category",
            boundary_gap=True,
            axislabel_opts=opts.LabelOpts(margin=30, color="#ffffff63"),
            axisline_opts=opts.AxisLineOpts(is_show=False),
        ),
        yaxis_opts=opts.AxisOpts(
            type_="value",
            position="left",
            axislabel_opts=opts.LabelOpts(margin=20, color="#ffffff63"),
            axisline_opts=opts.AxisLineOpts(
                linestyle_opts=opts.LineStyleOpts(width=2, color="#fff")
            ),
        ),
        legend_opts=opts.LegendOpts(is_show=False),
    )
)


3.4 每小时评论量



3.5 一周每天每时评论量

single_axis, titles = [], []
scatter = Scatter(init_opts=opts.InitOpts(width='1000px', height='800px', theme='light',bg_color='#0d0735'))
for idx, day in enumerate(weeks[::-1]):
    scatter.add_xaxis(xaxis_data=hours)
    single_axis.append({'left': 100,
'nameGap': 20,
'nameLocation': 'start',
'type': 'category',
'boundaryGap': False,
'data': hours,
'top': '{}%'.format(idx * 100 / 7 + 5),
'height': '{}%'.format(100 / 7 - 10),
'gridIndex': idx,
'axisLabel': {'interval': 2,'color':'#9FC131'},
                        })
    titles.append(dict(text=day,top='{}%'.format(idx * 100 / 7 + 6), left='2%',
                       textStyle=dict(color='#fff200', font_family='FZYaoTi')))
    scatter.add_yaxis('',
                    y_axis=[int(item[2]) for item in allinfo if item[0] == 7-idx],
                    symbol_size=JsCode('function(p) { return p[1] * 0.15;}'),
                    label_opts=opts.LabelOpts(is_show=False),
                    )
scatter.set_global_opts(
    xaxis_opts=opts.AxisOpts(is_show=False),
    yaxis_opts=opts.AxisOpts(is_show=False),
    title_opts=titles,
)

scatter.render_notebook()


从小时分布来看,高峰时间段为21:00-24:00,中午12:00也偶尔出现一波小高峰。
3.6 地理位置分布

geo = (
    Geo(init_opts=opts.InitOpts(width="1000px", height="600px", bg_color="#0d0735"))
    .add_schema(maptype="china")
    .add("评论数量", data,type_=ChartType.HEATMAP,)
    .set_series_opts(label_opts=opts.LabelOpts(is_show=False))
    .set_global_opts(
       title_opts=opts.TitleOpts(title="地理位置分布",pos_top="2%", pos_left="center",
                                 title_textstyle_opts=opts.TextStyleOpts(color="#fff", font_family='FZYaoTi',font_size=16)),
       legend_opts=opts.LegendOpts(is_show=False),
       visualmap_opts=opts.VisualMapOpts(
            is_show=True,
            is_piecewise=True,
            min_ = 0,
            max_ = 50,
            split_number = 5,
            series_index=0,
            pos_bottom='5%',
            pos_left='5%',
            textstyle_opts=opts.TextStyleOpts(color="#fff"),
            ),
    )
)

3.7 评论词云

stylecloud.gen_stylecloud(
    text=' '.join(content_list),
    font_path=r'STXINWEI.TTF',
    palette='cartocolors.diverging.TealRose_2',
    icon_name='fas fa-moon', # 设置蒙版方案
    output_name='独行月球.png',
    background_color='#FFEFD5',
    )
Image.open("独行月球.png")


4.  在线运行地址

在线运行地址(含源码+数据):https://www.heywhale.com/home/column/60e2740e3aeb9c0017b967a2
以上就是本期为大家整理的全部内容了,赶快练习起来吧,喜欢的朋友可以点赞、收藏也可以分享让更多人知道
更多内容(公众号:Python当打之年)
推荐阅读


  • 技巧 | Python绘制卡塔尔世界杯赛事时间线图
  • Matplotlib | 世界足球俱乐部排名可视化
  • Pandas+Pyecharts | 快手APP全国大学生用户数据分析可视化
  • Pandas+Pyecharts | 上海市餐饮数据分析可视化
  • Pandas+Pyecharts | 山东省高考考生数据分析可视化
  • Pandas+Pyecharts | 20000+天猫订单数据可视化
  • Pandas+Pyecharts | 40000+汽车之家数据分析可视化
  • Pandas+Pyecharts | 广州市已成交房源信息数据可视化
  • Pandas+Pyecharts | 某直聘平台招聘信息数据可视化
  • 可视化 | Python直观展示--中国代表团冬奥会荣耀时刻
  • 40000+条考研信息数据可视化(学校、专业分数分布)
  • 收藏 | 爆肝整理100个Pandas常用基础指令
回复

使用道具 举报

3

主题

60

帖子

122

积分

注册会员

Rank: 2

积分
122
发表于 2022-12-5 15:22:04 | 显示全部楼层
我只是路过,不发表意见
回复

使用道具 举报

0

主题

56

帖子

109

积分

注册会员

Rank: 2

积分
109
发表于 2022-12-7 13:29:04 | 显示全部楼层
OMG!介是啥东东!!!
回复

使用道具 举报

1

主题

50

帖子

99

积分

注册会员

Rank: 2

积分
99
发表于 2022-12-13 00:08:05 | 显示全部楼层
佩服佩服!
回复

使用道具 举报

3

主题

56

帖子

115

积分

注册会员

Rank: 2

积分
115
发表于 2022-12-13 23:55:25 | 显示全部楼层
珍爱生命,果断回帖。
回复

使用道具 举报

4

主题

50

帖子

101

积分

注册会员

Rank: 2

积分
101
发表于 2022-12-25 17:00:31 | 显示全部楼层
好,很好,非常好!
回复

使用道具 举报

1

主题

59

帖子

115

积分

注册会员

Rank: 2

积分
115
发表于 2022-12-29 17:33:05 | 显示全部楼层
前排支持下
回复

使用道具 举报

0

主题

55

帖子

108

积分

注册会员

Rank: 2

积分
108
发表于 2023-1-4 09:47:13 | 显示全部楼层
有点看不懂……
回复

使用道具 举报

1

主题

51

帖子

103

积分

注册会员

Rank: 2

积分
103
发表于 2023-1-4 19:23:08 | 显示全部楼层
啊啊啊啊啊啊啊啊啊啊啊
回复

使用道具 举报

1

主题

49

帖子

98

积分

注册会员

Rank: 2

积分
98
发表于 2023-1-30 00:29:10 | 显示全部楼层
围观 围观 沙发在哪里!!!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|电影吧

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4

快速回复 返回顶部 返回列表