PART1 前言
数据的历史十分悠久,它以一种记录符号为人们所熟知.随着科技的发展,在智能设备的不断更新换代下.人们日常生活中的点点滴滴,每一个细微的细节都被转换为数据被记录着.整个世界都处于在超级信息爆炸之中,我们正在经历的”增长的数据”的速度是人类整个历史上到目前为止增长速度最快的.所以应运而生了许多跨学科的交叉领域其中也涵盖了数据分析。
PART2 课程目标
通过对python语言的基本训练和学习,培养学生的数据分析能力、设计能力、逻辑能力,严谨的态度,通过本课程的学习,让学生掌握运用软件去对数据进行处理和可视化,让学生深入这个具有普适性和独特性的,以服务为导向的综合研究的系统,并提高描绘数据驱动的故事的能力。
课程名称:《数据挖掘与分析》
指导老师:陈筱琦
教学班级:2019级网络与新媒体专业
PART3 部分作业展示
个人可视化报告
《全国旅游景点分析》
19网新1班魏霖
改革开放以来,我国国民经济水平日益提高,人民对美好生活的需要日益被满足。人民群众除物质追求以外,有了更多精神上的追求,旅游逐渐成为我国许多家庭必不可少的一项娱乐我国旅游产业也因此而得到了极大的发展,成为了我国第三产业发展的关键动力之一,国家更是颁布了严格的旅游景区星级评定标准,拉动地区旅游业发展的同时也使得国内旅游得到了极大的规范化。中国的旅游业发展得益于我国悠久醇厚的人文历史资源,同时又拥有丰富多样的自然地理条件,此份报告通过收集全国 2443 个景点数据,并从多个维度进行相关分析。
一、全国 5A 级景区的各省份分布状况如何?
为带动以及合理规划国内旅游业,中华人民共和国国家质量监督检验检疫总局发布旅游景区质量等级的划分与评定,分别从旅游交通、游览、安全、卫生、邮电服务等方面严格评定,最终将国内各大景区由星级进行划分。那么,全国 5A 级景区在 34 个省份中是如何分布的?
从图表中我们可以清晰地看到,在各省(不含港澳台)中,5A 级景区分布最多的为江苏省,有 26 个之多,占比高达全国 5A 级景区的 9.7%;安徽、浙江、湖北三省均有 16 个 5A 级 景区,占比 6.0%,并列第二;而分布最少的为黑龙江和天津,仅有 2 个,均占 0.7%。
二、所有景区中,哪些城市的景区销量最高?
通过柱状图,我们可以清晰地看到,销量前 10 的景区集中分布在 5 个城市,分别为陕西、广东、四川、北京和上海。其中上海凭借全国销量最高的上海迪士尼乐园、上海海昌海洋公 园以及上海野生动物园 3 个景点夺得最高销量的城市。北京同样以其故宫、颐和园和八达岭长城 3 个景点名列销量第二。广东销量排第三,其长隆野生动物世界和珠海长隆海洋王国挤进销量前 10。而陕西和四川的秦始皇帝陵博物院(兵马俑)和成都大熊猫繁育研究基地同样具有超高的人气。
三、在我国的首都北京,有哪些 5A 级景点,人们对这些景点的评价如何?
北京是我国首都,拥有 3000 余年悠久的历史,是我国政治经济文化的一大中心,也是世界著名古都和现代化国际城市。据统计,其拥有 10 个 5A 级景区,主要为人文历史景观,平均分高达 4 分,其中销量、评分最高的景点是北京故宫。
北京故宫是世界上现存规模最大、保存最为完整的木质结构古建筑之一,是明清时代中国文明无价的历史见证,1961 年被列为第一批全国重点文物保护单位;1987 年被列为世界文化遗产。具有极高的遗产价值和学术价值。
北京鸟巢为国家体育馆。在北京 5A 级景区中排名第二,是 2008 年北京奥运会的主场馆,同时也是中国成功举办奥运会的一大纪念标识,至此,鸟巢成为了许多中国人到北京必打卡地之一。
八达岭长城得到了 4.1 的评分,八达岭景区是全国文明风景旅游区示范点,以其宏伟的景观、完善的设施和深厚的文化历史内涵而著称于世,是举世闻名的旅游胜地。中国人常说“不到长城非好汉”。
经济学中,商品的价格与销量通常呈反比关系,即价格越高销量越低。而根据数据报告我们可以得知:在旅游业中,价格与销量关系并不大。其原因主要与景区所在位置、个人意愿等相关。
四、我国景区价格分布如何?
5A 级景区中,共有 68 个景区票价在 0-50 元,116 个景区票价 50-100 元,100-150 元的景区有 38 个,150-200 元的景区有 34 个,200-300 元的景区有 10 个,而 300-500 元的景区只有 2 个。景区价格集中分布在 100 元以内。
在 4A 级景区中,共有 261 个景区票价在 0-50 元,200 个景区票价 50-100 元,100-150元的景区有 49 个,150-200 元的景区有 23 个,200-300 元的景区有 19 个,而 300-500元的景区只有 3 个,500 元以上的有 5 个。景区价格同样集中分布在 100 元以内。由上图数据可知,5A 级景区价格在 0-50 元的占到了 25.4%,50-100 元的占 43.3%,而4A 级景区价格在 0-50 元的占比 46.6%,50-100 元的占 35.7%。
由此可知,我国景区票价大多在 100 元以下,同时更有学生优惠、教师优惠等优惠政策,价格较低,使得国内旅游门槛不再高。这其得益于国家对旅游业的大力支持,使得我国国民能够更好地进行旅游,开阔眼界,瞻仰前人之智慧,体悟自然之鬼斧,增长知识。
通过词云分析可知,在旅游过程中,国人最为注重的是“餐饮”,可谓是“民以食为天”。同时,“娱乐”也多次被提及,在当代社会中,娱乐早已成为生活的调味剂,是国民生活中必不可缺。而“奇”、“幽”的景点也多次被提及,追求新奇、追求幽静是人民群众所喜爱的旅游景区。“依山 傍水、健康、汗蒸”等词汇更是突出了国民对于健康养生的需求
数据集来源:https://www.heywhale.com/mw/dataset/6108b262911b330017451cc7/project
19网新1班汤晨
Spotify是一个正版流媒体音乐服务平台,2008年10月在瑞典首都斯德哥尔摩正式上线。Spotify提供免费和付费两种服务,免费用户在使用Spotify的服务时将被插播一定的广告,付费用户则没有广告,且拥有更好的音质。流媒体音乐平台Spotify正式公布了该平台2018年盘点的具体数据,揭开最受平台用户欢迎的单曲和专辑,以及年度趋势。通过获取的数据集得出的分析如下:
图中,loudness响度高低与energy 是否充满能量和valence 心理感受的关联性较强,其中,valence 代表心理感受,值介于0到1之间,该值越高表示音乐给人的感受更正向,积极。
从上图我们能发现,loudness响度高低与energy 是否充满能量的相关性很强,并且基本上是处于正相关,越充满能量的歌响度越高,整首歌也会给人带来更加积极的能量;能量度越低的歌响度越低,整首歌也会更加的低沉。但也有极少数歌并不符合这种规律,但是图表中的大多数符合正相关的规律。并且根据图标所示,能量在0.6以上的歌曲占整个图表的绝大部分,说明在2018的Top100的榜单上,能量更强的歌占到整个榜单的绝大部分。在2018年人们会更喜欢能量更强的歌曲。
19网新1班王佳敏
报告背景
近年来,随着互联网的技术升级,许多行业都需要依靠线上平台去更好的获得利润。对于消费者通过互联网的消费习惯的分析就尤为重要。在国内具有一定规模的购物平台——天猫就是很好的数据参考。
针对不同地区在这个平台的消费情况的反馈,进行一系列的复盘与分析从而更好的进行销售计划地制定。
通过这个图我们可以看出,山东省、四川省、浙江省、江苏省、北京市、广东省和上海市的下单数量非常多,可以而山东省、四川省是人口大省,人口众多,所以下单数量多;浙江省,江苏省,北京市,上海市,广东省主要是人均收入高,所以购买能力强。可以看出我们应该根据地区的GDP作为一个地区的销售方案制定的一个指标。
从这张图可以发现,影响销售量的另一个因素可能是交通通达度。也就为什么偏远地区的下单量远远不及中部地区和东南部地区。一个是交通不便,运费高。另一个可能是因为耗时较长,不如线下购买。
以这种时候,我们可以考虑三种方案来应对。一种时针对不同的地区选取更合适的快递,综合考虑价格和时效。另一种是可以考虑固定一个时间节点做大力度的促销,通过更大程度的让利活动达到促进消费者购买的目的。如果遇到地区跨度过大,但是潜在市场可观的情况,可以考虑在该地区中心位置设立仓储点。从而降低消费者的物流成本,提升购买欲望。
从这张图可以发现,退货的情况与地区差异不大,但是与金额有很大的关系。也就是说,这可能跟网站的优惠活动“满减”的方式息息相关。
价格低的产品,并且可替代性强就会被用来凑单。这方面可以从价格的设置和提升产品质量来考虑。
综合上面三张图和反映的一些情况来看,我们发现销售的方案制定要综合考虑地区的交通成本和产品的质量与性价比。在整个销售环节里,提升转化率也是非常重要的一环。要在提升销售量的同时压低退货率。
数据来源:https://www.heywhale.com/mw/dataset/5eb60cab366f4d002d779163
《全球笔记本价格分析》
19网新2班洪素梅
报告背景(动机)
随着生活质量的提高和数据时代的发展,购买笔记本电脑是我们几乎所有人都会做的一种决定。在购买笔记本的时候,我们会考虑许多问题,比如品牌、操作系统、内存等,我们每个人都试图以尽可能低的价格拥有最好的设备,怎样能买到性价比最高的设备成了我们需要思考的问题。使用笔记本电脑数据集,我们将尝试通过数据分析探索和创建神经网络模型来回答这个问题,该模型根据其组件解释笔记本电脑的价格。我们将尝试估计对成品价格影响最大的因素以及我们能够根据其组件预测笔记本电脑价格的准确程度。
数据分析 (可视化&分析)
通过柱状图,我分析了全球笔记本产品种类数量最多的前六家公司,他们分别是戴尔、联想、惠普、华硕、宏碁和微星。由可视化图表可看出,戴尔、联想和惠普三家公司的产品种类数量是最多的,可知消费者在购买笔记本时,这三家公司能够提供的不同种类的笔记本产品是最多的,可以看出戴尔、联想和惠普在笔记本领域中产品种类占比较大。
这张图分析了不同操作系统的笔记本的价格差异。操作系统分为六大类:Mac、Windows、Linux、Chrome、Android 和无操作系统,中位数价格最高的是 Mac 操作系统的笔记本电脑,而 Linux 笔记本电脑的中位数价格最低。Windows系统的笔记本价格跨度比较大,且异常值最多,说明Windows系统的笔记本电脑有时定价超出了正常范围,变量可能会影响模型,但影响很小,因为我国消费者使用windows系统的占比较大,占人口大多数的 Windows 笔记本电脑的价格分布与总体人口的价格分布非常相似。
Reference
https://www.heywhale.com/mw/project/614abc6807bcea0017fc2740/dataset
《亚马逊2009-2019年50大畅销书分析》
19网新2班郑奇洋
报告背景
随着社会经济的快速发展,人们的生活节奏加快,在学习和工作的闲暇之余,人们会选择阅读书籍来提升自己,但是很多人不知道什么书值得去读,有哪些作家应该去了解,本次报告根据亚马逊2009-2019年50大畅销书分析,通过数据分析探索和创建表格分析欧美的阅读数据。
数据分析 (可视化&分析)
此图分析亚马逊2009-2019年畅销书非小说类比小说类占比要高。
此图以X轴为书名,Y轴为评论量,可视化分析显示评论数量前五名分别是《where the crawdads sing》 《the girl on the train》 《becoming name》 《gone girl》 《the fault in our stars》。
此图以X轴为读者评分,Y轴为评分数量,可以看出亚马逊2009-2019年畅销书读者评分以4.6分及以上的居多,4.5分及以下的相对较少。
此图分析出了畅销书数量在2009年发行最多,占比14.2%;其次是2010年,占比11.4%;占比最低的是是2014,2017,2019这三年,占比为7.7%。
此图分析了畅销书前十名的作家排行,作家Jeff Kinney受欢迎的书籍数量最多。书籍数量达到了12本。
此图分析了所有书籍的词云,其中book,novel,fifty,shades,dog,man,diary等词汇占比较大。
从上图我们可以得知:
1.非小说类书籍比小说类书籍更畅销
2.《where the crawdads sing》这本书更受人们欢迎
3.畅销书数量在2009年发行最多
4.作家Jeff Kinney受欢迎的书籍数量最多
5.在所有畅销书中,book,novel,fifty,shades,dog,man,diary等词汇占比较大
Reference
Amazon Top 50 Bestselling Books 2009 - 2019 | Kaggle
《淘宝双十一美妆数据》
19网新1班张雨
报告背景
每年双十一都是大家剁手的日子,有的为此揭不开锅。到底想看看双十一大家都买了些什么,了解大众的喜好,有利于往后的电商行业的发展方向。
数据分析 (可视化&分析)
从上图我们可以得知:
悦诗风吟品牌商品数包含最多,其次是欧莱雅,佰草集等;
悦诗风吟品牌商品数最多,同时其品牌商品的销量也是最多:
相宜本草总销售额最高,欧莱雅其次;
品牌平均每单单价最高的是雅诗兰黛。
从上图我们可以得知:
相宜本草的销售量和销售额都是最高的。销量第二至第五,分别为美宝莲、悦诗风吟、妮维雅、欧莱雅;销售额第二至第五,分别为欧莱雅、佰草集、美宝莲、悦诗风吟。 宝莲、悦诗风吟、欧莱雅都在销量、销售额前五中。
从上图我们可以得知:
淘宝化妆品的购买高峰在11号前几天,可能是双十一之前商家提前预热,已经有很大的优惠了,消费者的购物欲望强烈;
双十一当天,销量最低,可能是消费者为了避免网络高峰,在双11号之前提前购买了;
双十一之后的3天,销量远不如双十一之前了,但也逐步增长了,可能是商家持续打折有优惠,以及消费者的购物余热起作用。
和鲸社区 https://www.heywhale.com/mw/dataset/5e6f6f16c59d61003620d617/file
《2021中国大学排名研究》
19网新2班刘一苇
报告背景
随着人们日益增长的美好生活需要增长,我国高等教育的普及化程度越来越高,进入大学深造已经不再是难于上青天般的难事。在中国,高考的平均录取率已经接近80%,上大学不再是莘莘学子的象牙塔之梦,而是只需要努力就可以实现的光明前景。大学评价及排行是社会了解、评价高校的重要窗口。了解中国大学排名有助于学子选择高校,对大学综合水平有大致的了解,便于有需要的人制定目标与计划,规划前景。
本数据集来自软科自主研发的大学可视化评价分析技术,依托“大学360度数据监测平台”的数据支持,设置了十大评价模块,细分30个评价维度,内嵌上百项评价指标,涉及数百个评价变量,是对中国大学办学水平的立体化监测评价。软科创始人程莹介绍:“软科中国大学排名的导向是反映当前中国高校的核心使命,回应外部群体对大学的价值期待,高度重视星空体育官方信誉好、突出强调服务国家是软科排名指标体系的两个最重要特点。”
数据分析 (可视化&分析)
从上图我们可以得知,全国大学数量中,江苏省高校数量最多,山东省、河南省、河北省等分别占据前几的位置,分析我国现状可知,江苏、山东、河南、河北都是教育大省,当地高校数量与当地教育需求有较大关系。
从图中可知,北京、上海、江苏、天津等地区平均分较高,内蒙古、广西、新疆、贵州、山西等地区平均分相对发达省市较低,这与当地教育质量与水平也有一定关系。
由上图可知,北京、浙江、上海等发达城市总分较高,西部地区大学数量较少,总分也相对较低,其原因是西部地区教学资源比较匮乏,地理位置和经济条件相对于内陆地区较弱。
综上,通过对数据集的处理与可视化分析可得,2021软科中国大学排名的上榜高校共有582所,其中发达城市所在的大学数量较多,西部地区较少,综合排名也相对较低。排名前10的大学较前一年的波动较小,综合实力仍然较强,双一流高校占据绝对的主导优势。
Reference
https://www.shanghairanking.cn/rankings/bcur/2021
https://www.heywhale.com/mw/dataset/60b7386bb5d06b001738fb76/file
《富豪指数分析》
19网新2班温耀光
报告动机
出于对富豪指数的兴趣,想要比较深入了解富豪指数的一些关系,我制作了本次可视化内容。
粗略了解分析富豪指数和国家、富豪指数与产业、富豪指数与收益的关系,从中了解了一些国家和产业怎样影响富豪指数,高富豪指数收益特点。
数据分析:
从图中可知,富豪指数前500的富豪,美国有170个、法国有80个,且据下一个排名国家有较大差距,美国和法国的富豪数量高。
美国和法国都是大国,且为发达国家,国内拥有高数量的人口,且人民收入较高,市场巨大,所以我们可以知道富豪指数和国家是有关的,越是大国越适合富豪的产生和发展。
由图可知,富豪指数前100名的富豪在几个产业没有呈现哪一产业集中分布,每个产业基本都是从高到低的富豪指数都有,但是我们发现图中越往左越没有高排名的富豪,我们可以推测富豪指数前500名也会呈现此情况-有些产业没有高排名,
所以我们推测富豪指数的下限与产业没有直接的关系,不会你选择那个产业就注定能做到哪个排名,但是富豪指数的上线与产业具有直接关系,产业的上限很难突破。
由过去一年财富变化量图可知,和距上次财富变化量图可知,从左到右都有起伏,在正负收益分界线的上下;排名前20的富豪过去一年的财富变化量上下起伏较大;
所以可以推测不是富豪指数越高就一定能保证每次收入都是正收益且收益高,也会有收入低或者负收入的情况出现,但是富豪指数越高的富豪收益的上限要比底的高。
PART4 课程小结
本学期课程学生通过学习python语言进行数据处理,数据分析,数据可视化,作品包含独立完成的一份数据报告和小组协作下的完成的数据驱动的新闻报告,基本掌握了数据挖掘与分析的技巧,能独立完成较为完整的数据分析报告。
不足:学生虽然能够完成数据可视化的图示,但是对深入的数据分析的逻辑能力不足,对数据的处理也欠缺经验。需要加强逻辑判断能力与对数字的理解能力。另外在选题上面缺乏实事的针对性。
改进建议:细化课程教学内容设计,将处理数据中需要用到的逻辑思维方法,并结合数据可视化的意义教授,能让学生更加深入的了解数据分析如何应用。