列表

详情


在大数据计算服务中,使用MapReduce开发一个分词程序,即输入为保存在表中的多篇文章(每篇文章一行记录),参考一个字典文件(该文件会经常更新)进行分词。简而言之,在执行该程序的时候,既需要输入待分词的文章(已经保存在表中了),又需要输入字典(为经常变动的本地文件),以下最合理的解决方案为?

A. 将字典文件保存在本地,在MR中通过访问本地最新的字典文件实现

B. 将这个字典与源代码一起进行打包,直接执行即可

C. 将字典达成jar包,使用jar 命令执行MR程序时,通过resource参数指定该jar包

D. 每次都将字典文件作为资源上传到大数据计算服务上,然后MR中通过资源的方式来访问

参考答案: D

详细解析:

由于沙箱机制的影响,大数据计算服务是无法直接访问本地数据的,可以作为资源上传至大数据计算服务上,通过程序读取资源的方式实现。

上一题