python学习吧 关注:15,798贴子:76,305
  • 0回复贴,共1

用python和java花了十几天爬几百万的考试资料

只看楼主收藏回复

先给大家看看效果:

功能点:
1.大数据:200多万的资料文件,将近40GB的图片;
2.支持分词:实现自动中文拆词搜索;
3.极速搜索:1秒内可查出结果;
技术点:
1.服务端:python、spring cloud、go;
2.存储:mysql 5.7,redis6.0.6,elaticSearch 7+ik;
3.前端技术:vue
4.开发工具:pycharm、idea、HBuilder、postman;
5.其它:kettle、logstash、elasticsearch-head(可视化管理es);
注:先用logstash全量同步mysql数据到es,然后用go-mysql-elasticsearch实时同步mysql增量数据到ES;
待解决的问题:
1.如何快速爬完全盘数据:现在爬一次要十天时间,效率太低,希望可以2小时内爬完;
2.实现百度网盘接口自动登录:现在是固定一个token值,每个月手动更新一次,属于投机取巧的方式;
3.实现搜索热词:如何用elatic-search内部集成的插件实现热词统计;
4.并行编程难度大:并行爬虫确实执行速度快,但是容易出现redis客户端超出最大数、数据存储共享等棘手问题;
欢迎大家一起探讨拍砖~~


1楼2021-01-25 17:15回复