Spark大数据计算入门
课程简介
作为大数据计算系统的代表,Apache Spark近来年已在各个行业得到普遍应用。本课程以Python作为编程语言,系统介绍Spark的基础知识、RDD编程、Spark内核、Spark SQL、Spark Streaming、Spark ML等。课程配有PPT、大量实例、源代码、数据集、习题,并有助教现场进行上机指导。
参考资料
- Learning Spark: Lightning-Fast Big Data Analysis, O'Reilly Media
- 7 Steps for a Developer to Learn Apache® Spark
- https://spark.apache.org/docs/latest/index.html
面向对象
高等院校在校学生、数据处理工程技术人员、数据分析师、以及大数据技术爱好者。需具备基础Python编程水平及SQL基本知识。
授课语言
普通话或英文授课,英文课程资料。
授课教师
易珂,香港科技大学计算机科学与工程学系教授,大数据技术硕士项目主任,清华大学计算机科学学士、美国杜克大学计算机科学博士。曾获ACM SIGMOD最佳论文奖、ACM SIGMOD最佳系统演示奖、香港科大大数据课程最佳教学奖、清华大学特等奖学金、IOI银牌等奖项。他的研究成果见诸顶尖学术期刊及国际会议,如《Journal of the ACM》、《ACM Transactions on Database Systems》、ACM SIGMOD/PODS Conference。易教授现担任《ACM Transactions on Database Systems》编委,也曾任《IEEE Transactions on Knowledge and Data Engineering》编委。他受邀多次于数据库、算法领域的国际会议上做主题演讲(Keynote speech),并担任2021 International Conference on Database Theory程序委员会主席(PC Chair)。他的学术专著《Small Summaries for Big Data》已于2020年由剑桥大学出版社出版。 此外,易教授与阿里巴巴、华为、顺丰等公司开展多项合作研发项目,将学术成果推广至工业界,与公司合作研发的成果获得7项美国和中国专利。培养博士生十余名,分别在美国印第安纳大学、复旦大学、浙江大学、人民大学、Microsoft Research、Google、阿里巴巴、华为等高校(企业)任教(职)。
报名要求
- 基础Python编程水平
- SQL基本知识