1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199
| def list_all_dir_find_first(ftp, ls_items, ls_files, file): """ 本意是查询所有的文件夹,顺便判断一下文件,匹配文件。 但考虑到一种情况,即如果查询多个文件,则每个文件都用这个方法去查,会耗用很多时间。 假设找3个文件,3个文件都在非常后面的文件夹深处,时间就会非常的长。 所以做了些优化,当第一个文件查出来时,其实大部分的文件夹已经遍历完毕,且已经区分出来一些文件了。 此时如果查询第二个及之后的文件,先去筛出来的文件里找,存在的话,就会找得很快; 即使没找到,再在第一次找的剩余项目(文件or文件夹都可能有)里接着去遍历,也会很快。 所以这么去设计做了一下子更新。 """ """ 更新:实际执行时,ftp server会有超时时间。 查询的文件如果比较深,可能几个小时都没定位到,就被server端提出来了。 所以要考虑执行的次数,达到某个次数时,退出ftp,再重新登录,继续查找。 """ ftp = ftp ls_dir, backup_files = ls_items, ls_files file = file backup_dir = [] # 判断是否是初次执行,是的话,要从"/"根目录开始遍历 if len(ls_dir) != 0: addr = ls_dir.pop(0) else: addr = ""
# 这里目的是:再次执行此函数的话,防止ls_items队列里首位是一个文件 # 是文件的话,就要判断,并将文件名放入ls_files里。 # 然后再从队列里取首位,再判断是不是文件。 kl = '' while kl == '': try: ftp.cwd(addr) kl = 'OK' except error_perm: backup_files.append(addr) if file == addr.split('/')[-1]: return addr, ls_dir, backup_files if len(ls_dir) != 0: addr = ls_dir.pop(0) else: return addr, ls_dir, backup_files
print("f: ", len(backup_files))
sub_dir = ftp.nlst()
count = 0 while (len(sub_dir) != 0 or len(ls_dir) != 0) and count < 100: addr = ftp.pwd() sub_dir = [addr + "/" + s for s in sub_dir] ls_dir = ls_dir + sub_dir
lhd = ls_dir.pop(0)
try: ftp.cwd(lhd) sub_dir = ftp.nlst() backup_dir.append(lhd) # 判断是文件夹放入backupdir except error_perm: # 如果无法进入,说明当前要进入的路径不是文件夹,而是子文件了。 # 则此时就判断文件名是否为我们要查询的。 backup_files.append(lhd) # 判断是文件则放入backupfiles if file == lhd.split('/')[-1]: break else: sub_dir = [] count = count + 1 # 重复次数,当达到数量后退出循环 print("Files: ", len(backup_files))
print("Current location or file: ", lhd) print("Number of detected files: ", len(backup_files))
return lhd, ls_dir, backup_files
def main(): files = input("\n文件名:")
files = re.split("[,.,。]", files) # 防止输入的符号有问题,对多个分隔符号做切割。 files = list(filter(lambda x : x != "pdf", files)) # 防止输入了文件后缀名,将pdf排除 print("\n本次要进行查询的文件如下:", files) # ########################################################################## # 上面的部分没啥用 # 下面是主要的逻辑部分 # ########################################################################## with open("ftpconfig.cfg", "r") as f: conf_string = json.load(f) localpath = conf_string["localpath"] querylog = conf_string["querylog"] ftp_addr = conf_string["ftp_addr"]
ftp_info = ftp_addr.pop(0) host = ftp_info["host"] port = ftp_info["port"] username = ftp_info["username"] password = ftp_info["password"]
ftp = ftpconnect(host, port, username, password)
start = datetime.datetime.now()
# 下面的执行函数,是核心的部分,逻辑非常非常非常的绕。 # 因为考虑到了很多种情况。比如查询多少个文件后就要退出来,重复进入接着查等等。 file = files.pop(0) file = file + ".pdf" files_remained = [] # 第一次进入函数查询。 ls_items, ls_files = [], [] file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file) ftp.quit()
print("------------------------")
while file_out.split('/')[-1] != file and ls_items != []: ftp = ftpconnect(host, port, username, password) file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file) ftp.quit() print("------------------------")
end = datetime.datetime.now()
print("------------------------") if file_out.split('/')[-1] == file: print('Finding file takes:[{}]'.format((end - start).seconds)) query_log_writer(querylog, file, file_out, start, end, "Yes") else: print('No File Founded:[{}]'.format((end - start).seconds)) query_log_writer(querylog, file, file_out, start, end, "No") files_remained.append(file) print("------------------------")
ftp = ftpconnect(host, port, username, password) downloadfile(ftp, file_out, localpath) ftp.quit()
# 如要找2个或2个以上的文件时,则执行下面的代码。 # 之所以没有和之前的代码,单文件找,代码在一个循环里,是因为逻辑不一样。 # 只查1个文件时,或者查多个文件,查找第一个文件时,是要初始遍历的。 # 但是查第二个文件时,从第一次遍历的输出文件list中先去找,这样就会更快速。 while len(files) != 0: start = datetime.datetime.now() file = files.pop(0) file = file + ".pdf"
# 先在第一次遍历的输出文件list中先去找 for i in ls_files: if i.split('/')[-1] == file: break else: pass if i.split('/')[-1] == file: end = datetime.datetime.now() print("------------------------") print('Finding file takes:[{}]'.format((end - start).seconds)) query_log_writer(querylog, file, i, start, end, "Yes")
ftp = ftpconnect(host, port, username, password) downloadfile(ftp, i, localpath) ftp.quit()
# 没找到的话,则重新跑list_all_dir_find_first函数,去找。 elif ls_items == []: end = datetime.datetime.now() print("------------------------") print('No File Founded:[{}]'.format((end - start).seconds)) query_log_writer(querylog, file, i, start, end, "No") files_remained.append(file) else: ftp = ftpconnect(host, port, username, password) file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file) ftp.quit() print("------------------------") while file_out.split('/')[-1] != file and ls_items != []: ftp = ftpconnect(host, port, username, password) file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file) ftp.quit() print("------------------------")
end = datetime.datetime.now() print("------------------------") if file_out.split('/')[-1] == file: print('Finding file takes:[{}]'.format((end - start).seconds)) query_log_writer(querylog, file, file_out, start, end, "Yes") else: print('No File Founded:[{}]'.format((end - start).seconds)) query_log_writer(querylog, file, file_out, start, end, "No") files_remained.append(file) print("------------------------")
ftp = ftpconnect(host, port, username, password) downloadfile(ftp, file_out, localpath) ftp.quit() pass
print("\nTask finished.")
|