【Tech】数据分析可视化的探究

想搞个人力资源信息的分析。
构思了一下整体的实现场景,然后发现很多环节要做。而且还有一些技术操作,还不会……
只能一点点试着学起来。加上呀,最近工作真的是好多好多。所以断断续续的研究,一个环节一个环节实现、测试。好像真的花了好多时间呢。
也应该算是一个小小小小的小项目了吧。

小项目背景

工作的原因,对HR数据比较好奇,想从各个维度对员工离职的情形做下分析。

小项目实现思路

* 最终的效果是web界面,但是其中数据分析尽量要可视化。
研究了下,数据分析可视化工具最后使用pyecharts。生成的可视化charts通过iframe嵌入到web界面中。
* 原始数据通过爬取获得。使用pandas,将数据做清理,以及各个维度的标签标记。
* 爬取数据,在PC上使用周期job,以保证数据会更新。
* pyecharts生成html,需随数据同步更新,并且需可访问。
通过对象存储存储生成的html。同时需要在html更新后,及时同步至对象存储上。

小项目实现

  1. lxml模块,进行html的xpath解析,抓取需要的数据。
  2. pyecharts模块, 应用了一些图表:
    • Sankey桑基图:离职原因及在职年份分析;
    • Map地图:离职员工地域分布;
    • Bar条形图:离职员工所在省份;
    • Pie饼图:离职原因比例,及再次入职意愿比例
  3. qcloud_cos模块,使用腾讯云的sdk,用于将生成的图表传入到COS中。同时web界面通过将图表嵌入iframe中展示。
  4. 最后用windows自带的task scheduler设置定时job,进行上述几个步骤的脚本运行。

总结

总结呢,就是给自己又搞了个大坑。
真的是……哎……

毕竟,在数据上,从数据获取到可视化模型建立;网页实现上,网页排版到视图插入且同步更新;架构上,图表文件实时更新到存储实时同步,每个环节上都需要设计和开发。
而且完完全全自己实现……

真的是……花费了好多时间呀呀呀。

希望自己在不断挖坑、填坑的过程中,能慢慢加油,学习掌握更多的知识吧。