1. 根据配置文件得到三个待用目录
本地文件目录 (待上传目录)
hdfs远程文件备份目录(hdfs备用目录)
hdfs远程文件归档目录(hdfs正式路径)
hdfs的文件操作封装成工具类,随时供调用
public class HDFSUtil {
protected static Configuration conf;
protected FileSystem hdfs;
private Comparator<? super LocatedFileStatus> fileCompare;
public HDFSUtil() {
try {
if (conf == null) {
conf = new Configuration();
}
//获取配置的文件系统
hdfs = FileSystem.get(conf);
} catch (IOException e) {
throw new BaseException("HDFS读取配置文件获取连接操作异常!");
}
//文件比较器定义,即修改时间不同的文件,即为“不同的”文件
fileCompare = new Comparator<LocatedFileStatus>() {
@Override
public int compare(LocatedFileStatus o1, LocatedFileStatus o2) {
int rs = 0;
long l1 = o1.getModificationTime();
long l2 = o2.getModificationTime();
if (l1 > l2) {
rs = 1;
} else if (l1 < l2) {
rs = -1;
}
return rs;
}
};
}
/**
* 是否存在目录或文件 .
*
*/
public boolean existFile(String hdfsPath) throws IOException {
Path path = new Path(hdfsPath);
return hdfs.exists(path);
}
/**
* 删除目录或文件
*
* @param dir
* 目录名
*/
public boolean deleteFileOrDir(String dir) {
boolean flag = false;
try {
flag = hdfs.delete(new Path(dir), true);
if (!flag) {
throw new BaseException("删除目录或文件失败,请检查'" + dir + "'目录或文件是否存在!");
}
} catch (IOException e) {
throw new BaseException("HDFS删除目录或文件失败!");
}
return flag;
}
/**
* 将本地文件上传到HDFS服务器上
*
* @param source
* 源文件路径
* @param dest
* 目标文件路径
*/
public boolean uploadLocalFile2HDFS(String source, String dest) {
boolean flag = false;
Path src = new Path(source);
try {
Path dst = new Path(dest);
if (hdfs.exists(dst)) { // 如果目标文件已存在,则先删除再上传
deleteFileOrDir(dest);
}
hdfs.copyFromLocalFile(src, dst);
// 设置上传者本身有删除权限
hdfs.setPermission(dst, FsPermission.valueOf("-rwxrwxr-x"));
flag = true;
} catch (Exception e) {
throw new BaseException(dest, e.getMessage());
}
throw new BaseException("HDFS上传文件失败.");
}
return flag;
}
/**
* 新建目录
*
* @param dir
* 目录名
*/
public boolean makeDir(String dir) {
boolean flag = false;
try {
Path path = new Path(dir);
if (hdfs.exists(path)) {
flag = true; // 如果路径存在,直接返回true
} else {
flag = hdfs.mkdirs(new Path(dir));
}
} catch (IOException e) {
throw new BaseException("创建目录失败!");
}
return flag;
}
}
2.扫描本地文件目录中存在的文件名
//获取本地路径, pathName不可为null,否则会抛空指针异常
File file=new File(pathName);
/**
将此路径下的所有文件和目录名(当前名称,不包含此目录或文件的父目录名称)以数组形式列出,如果pathName放入的不是目录,而是文件名,则此函数返回null,如果该目录下无文件则返回空。
**/
String filename[]=file.list();
3. 本地文件目录+文件名 即为完整的需要上传的文件整体目录信息。
4. 新建对列以存储文件目录信息,将文件信息放入队列,等待上传
private static ConcurrentLinkedQueue<String> upLoadHdfsqueue = new ConcurrentLinkedQueue<>();
public static void add(String pathName) {
upLoadHdfsqueue.add(pathName);
logger.info(ILoggerBusiness.LOGTYPE_BUSINESS, ILoggerBusiness.ERRORCODE_NULL, "hdfs队列增加一个元素:" + str);
}
public static int GetQueueSize() {
return upLoadHdfsqueue.size();
}
文章浏览阅读4.4w次,点赞11次,收藏56次。分类问题是人类所面临的一个非常重要且具有普遍意义的问题,我们生活中的很多问题归根到底都是分类问题。文本分类就是根据文本内容将其分到合适的类别,它是自然语言处理的一个十分重要的问题。文本分类主要应用于信息检索,机器翻译,自动文摘,信息过滤,邮件分类等任务。文本分类技术发展历史 1960-1970:那时主要通过人工+规则(关键词或者正则表达式)的方式,制定规则的人需要对某类目领域有足够的认知和了解。举_文本特征提取word2vec
文章浏览阅读1k次。本文利用libevent,实现一个C++线程池,,可自定义用户任务类,继承于任务task基类,重写任务基类的纯虚函数实现多态。比如将定义定义处理客户端的请求任务类,实现对客户端请求的并发处理。工作队列:可以理解为线程的队列,一个线程同时可以处理一个任务,空闲的线程回从任务队列取出任务执行。当工作队列空时,线程会睡眠。任务队列:用户将任务加入任务队列,然后通知工作队列,取出一个任务到线程中执行。_windows c++ 开发 客户端 libevent
文章浏览阅读3.4w次,点赞3次,收藏11次。篇一:《工作中存在的不足及改进措施》通过近一段时间的工作,反省自身,还存在许多不足和缺点,现将近期的工作、学习中存在的不足和缺点简要总结如下:1、自身的专业业务水平不高,事故应急处理能力不强.虽然通过学习和工作经验的积累,在业务水平上有了一定的提高,但业务水平和工作经验与其它老同志比还是比较低.在日常工作中偏重于日常生产工作,也忽视了自身思想素质的提高,工作中争强当先的意识不强.2、工作上满足于正..._工作不足之处及改进措施
文章浏览阅读2k次。常用的poi工具,如easy-excel,hutool读取excel是都是先将整个excel加载到内存中分析,然后再一行行遍历,当excel文件太大时读取的时间就会更长,如果我们只需要读取excel的前几行来进行预览就不能使用这种方式,应该按需读取。_java 读取大文件excel
文章浏览阅读237次。HTML_常用标签测试_html标签检测
文章浏览阅读482次。牛顿法是一种用于求解非线性方程组的迭代优化方法。其基本原理是基于泰勒级数展开和一阶导数的近似,通过不断迭代修正初始猜测解来逼近方程组的解。Fx0其中,Fxf1xf2x...fnxT是一个多元函数,xx1x2...xnT是待求解的变量向量。牛顿法的基本思想是,在当前的迭代点xk处,用一个一阶泰勒展开来近似fixfix≈fixkj1∑n∂xj∂fixk。
文章浏览阅读815次。文章目录摘要摘要_后端克里金插值分析
文章浏览阅读3.3w次,点赞10次,收藏36次。我们在 Windows 操作系统中写文档,做笔记,通常使用 Windows 自带的记事本,可是记事本不支持插入图片,创建表格等功能,从而不得不使用 Office Word。不知道大家有没有这样的感觉,使用 Office Word 写文档,效率极低,需要一边敲字,一边使用鼠标排版,比如:在文章中给团队的名字“LSGO软件技术团队”加粗,就需要先用鼠标选中这个词语,然后点击工具栏中“B”形状的工具..._有道云笔记如何建立 文档索引
文章浏览阅读137次。IP-guard 远程命令执行漏洞_ipg 漏洞
文章浏览阅读255次。2017年,全球数据泄露事件已不仅是呈翻倍的速度增长。16年的14亿条,到17年仅上半年的17亿条,这样的数据泄露规模你是否还在存在侥幸心理,就是那所谓的“怎么可能刚好落在我身上”。随着我们在工作、生活中的云化,就在今天,万物互联已经融入到我们每个人的生活中,相信在不就的将来,整个IOT时代也将会很快的到来。仔细回忆一下,今天我们所做的任何情都离不..._8,iot时代,数据安全有哪些新特征?
文章浏览阅读6.7k次,点赞47次,收藏143次。存放文本时,也可以使用Text数据类型,可以将TEXT列视为VARCHAR列,注意Text不能有默认值,大小0-2^16字节;同一查询在同一事务中多次进行,由于其它提交事务所做的修改和删除,每次返回不同的结果集,则发生不可重复读;多个连接开启各自事务操作数据库中数据时,数据库系统要负责隔离操作,以保证各个连接在获取数据是的准确性;同一查询在同一个事务中多次执行,由于其它提交事务所做的插入操作,每次返回不同的结果集,此时发生幻读;同真是的表一样,视图包含列,其数据来自对应的真实表(基表)_mysql教程
文章浏览阅读550次,点赞10次,收藏6次。GD32官方的开发环境(基于Eclipse)的使用。_gd32e23 开发环境