字体
关灯
上一章 目录 下一页 进书架
    第77章 爬虫抓取的第一份数据:教辅价格 (5 / 8)

        def _mit(x):

        if '万' in str(x):

        return float(str(x).repce('万+','').repce('万','')) * 10000

        else:

        return float(str(x).repce('+',''))

        df['评价数'] = df['评价数'].apply(_mit)

        清洗后,他进行了快速的探索性分析:

        1. 价格分布:用df['价格'].describe()和直方图查看。初中数学教辅价格主要集中在20-60元区间,均价约35元,但也有少数高端教辅(如竞赛专题)价格超过100元。

        2. 销量(评价数)与价格关系:绘制散点图,发现评价数(粗略代表销量)与价格呈微弱负相关,但高评价的爆款往往集中在30-50元这个“黄金价格带”。

        3. 店铺分析:发现销量高的店铺,除了官方自营,主要是几家大型专营教辅的图书专营店。个人小店铺销量普遍很低。

        4. 竞品初步观察:筛选出评价数最高的前20本书,查看其书名、特点。发现畅销品集中在几个系列(如“五年中考三年模拟”、“教材全解”、“实验班”等),且名称中常包含“必刷题”、“压轴题”、“冲刺”等关键词,紧扣应试痛点。

  The content is not finished, continue reading on the next page
  • 上一章 目录 下一页