实验作业

实验报告模板

作业1: 数据操作基础(Java语言)

课前准备:自行学习Java语言的基础知识,包括:语法、常用类、IO操作、面向对象概念。

实验目的:

  • 掌握Java语言基础语法, 为Hadoop技术的应用作准备。
  • 掌握Java语言文件随机访问方法。
  • 掌握数据文件的存储方法。
  • 掌握唯一性索引的原理和基于Hash算法的索引实现方法。
  • 掌握非唯一性索引的原理和基于Hash算法的索引实现方法。

实验内容:

  • 下载工程源代码
  • 阅读源代码, 掌握数据文件的基础操作、学生记录基于num唯一索引的创建和维护过程
  • 掌握全表扫描的实现方式。基于现有工程源代码,实现基于name(非唯一)的查询。
  • 掌握非唯一索引的实现方式。基于现有工程源代码,实现name(非唯一)索引的创建、维护,查询过程。
  • 撰写实验报告, 讲解实验过程和主要工作

作业提交:通过作业提交系统上传作业的PDF格式, 文件命名: 学号_姓名_1.pdf , 注意使用英文下划线。

实验总结:(范本)

通过本次项目,深入学习了数据库的索引原理,掌握了基于Hash算法的数据库索引实现方法, 以及自主管理数据文件和索引文件的存储方法;重点掌握了唯一性索引和非唯一性索引的实现方法, 深入理解了两种索引的区别以及应用场景;掌握了基于Java编程语言和Python编程语言的操作系统文件随机读写访问的实现方法。

备注:可选Python语言。下载工程源代码(python), 基于python语言实现本次实验内容和要求。

截止日期: 2022年3月25日晚12点

作业2:

课前准备:准备linux命令行的操作环境,可以是linux虚拟机、cywin、macos, 需要有awk执行环境; 准备java开发环境, 安装maven管理工具, 安装hadoop环境。

实验目的:

  • 掌握基于awk的mapreduce模拟实现的原理
  • 掌握使用java语言和Hadoop提供的接口库,实现MapReduce算法的方法

实验内容:

awk

  • 下载awk.zip
  • 阅读awk工程源代码,通过自行查阅awk相关资料学习awk的使用方法。
  • 执行awk工程的max_temperature.sh文件, 查看执行结果。

hadoop

准备环境

  • 安装java环境(安装JDK),配置环境变量
  • 安装Maven环境, 配置环境变量
  • 安装hadoop环境,配置环境变量

运行代码

  • 下载hadoop-book-mr.zip,然后解压
  • 使用命令行 cd hadoop-book-mr , 切换到hadoop-book-mr下
  • cd ch02-mr-intro
  • mvn package, 在ch02-mr-intro目录下执行打包操作, 成功后会在target目录下生成 ch02-mr-intro-4.0.jar 文件
  • cd .. , 切换回上层目录
  • hadoop jar ch02-mr-intro/target/ch02-mr-intro-4.0.jar MaxTemperature input/ncdc/all output, 执行命令,查看运行结果;运行成功后, 结果会放在output文件夹下面

实验报告

  • 描述本次实验的过程
  • 讲解通过本次实验学习到的核心技术