【Tech】遍历FTP地址查文件的程序

不想说太多了,真的太费脑子了。
直接上核心部分的代码:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
def list_all_dir_find_first(ftp, ls_items, ls_files, file):
"""
本意是查询所有的文件夹,顺便判断一下文件,匹配文件。
但考虑到一种情况,即如果查询多个文件,则每个文件都用这个方法去查,会耗用很多时间。
假设找3个文件,3个文件都在非常后面的文件夹深处,时间就会非常的长。
所以做了些优化,当第一个文件查出来时,其实大部分的文件夹已经遍历完毕,且已经区分出来一些文件了。
此时如果查询第二个及之后的文件,先去筛出来的文件里找,存在的话,就会找得很快;
即使没找到,再在第一次找的剩余项目(文件or文件夹都可能有)里接着去遍历,也会很快。
所以这么去设计做了一下子更新。
"""
"""
更新:实际执行时,ftp server会有超时时间。
查询的文件如果比较深,可能几个小时都没定位到,就被server端提出来了。
所以要考虑执行的次数,达到某个次数时,退出ftp,再重新登录,继续查找。
"""
ftp = ftp
ls_dir, backup_files = ls_items, ls_files
file = file
backup_dir = []

# 判断是否是初次执行,是的话,要从"/"根目录开始遍历
if len(ls_dir) != 0:
addr = ls_dir.pop(0)
else:
addr = ""

# 这里目的是:再次执行此函数的话,防止ls_items队列里首位是一个文件
# 是文件的话,就要判断,并将文件名放入ls_files里。
# 然后再从队列里取首位,再判断是不是文件。
kl = ''
while kl == '':
try:
ftp.cwd(addr)
kl = 'OK'

except error_perm:
backup_files.append(addr)
if file == addr.split('/')[-1]:
return addr, ls_dir, backup_files

if len(ls_dir) != 0:
addr = ls_dir.pop(0)
else:
return addr, ls_dir, backup_files

print("f: ", len(backup_files))

sub_dir = ftp.nlst()

count = 0
while (len(sub_dir) != 0 or len(ls_dir) != 0) and count < 100:
addr = ftp.pwd()
sub_dir = [addr + "/" + s for s in sub_dir]
ls_dir = ls_dir + sub_dir

lhd = ls_dir.pop(0)

try:
ftp.cwd(lhd)
sub_dir = ftp.nlst()
backup_dir.append(lhd) # 判断是文件夹放入backupdir
except error_perm:
# 如果无法进入,说明当前要进入的路径不是文件夹,而是子文件了。
# 则此时就判断文件名是否为我们要查询的。
backup_files.append(lhd) # 判断是文件则放入backupfiles
if file == lhd.split('/')[-1]:
break
else:
sub_dir = []
count = count + 1 # 重复次数,当达到数量后退出循环
print("Files: ", len(backup_files))

print("Current location or file: ", lhd)
print("Number of detected files: ", len(backup_files))

return lhd, ls_dir, backup_files


def main():
files = input("\n文件名:")

files = re.split("[,.,。]", files) # 防止输入的符号有问题,对多个分隔符号做切割。
files = list(filter(lambda x : x != "pdf", files)) # 防止输入了文件后缀名,将pdf排除
print("\n本次要进行查询的文件如下:", files)
# ##########################################################################
# 上面的部分没啥用
# 下面是主要的逻辑部分
# ##########################################################################
with open("ftpconfig.cfg", "r") as f:
conf_string = json.load(f)
localpath = conf_string["localpath"]
querylog = conf_string["querylog"]
ftp_addr = conf_string["ftp_addr"]

ftp_info = ftp_addr.pop(0)
host = ftp_info["host"]
port = ftp_info["port"]
username = ftp_info["username"]
password = ftp_info["password"]

ftp = ftpconnect(host, port, username, password)

start = datetime.datetime.now()

# 下面的执行函数,是核心的部分,逻辑非常非常非常的绕。
# 因为考虑到了很多种情况。比如查询多少个文件后就要退出来,重复进入接着查等等。

file = files.pop(0)
file = file + ".pdf"
files_remained = []
# 第一次进入函数查询。
ls_items, ls_files = [], []
file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file)
ftp.quit()

print("------------------------")

while file_out.split('/')[-1] != file and ls_items != []:
ftp = ftpconnect(host, port, username, password)
file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file)
ftp.quit()
print("------------------------")

end = datetime.datetime.now()

print("------------------------")
if file_out.split('/')[-1] == file:
print('Finding file takes:[{}]'.format((end - start).seconds))
query_log_writer(querylog, file, file_out, start, end, "Yes")
else:
print('No File Founded:[{}]'.format((end - start).seconds))
query_log_writer(querylog, file, file_out, start, end, "No")
files_remained.append(file)
print("------------------------")

ftp = ftpconnect(host, port, username, password)
downloadfile(ftp, file_out, localpath)
ftp.quit()

# 如要找2个或2个以上的文件时,则执行下面的代码。
# 之所以没有和之前的代码,单文件找,代码在一个循环里,是因为逻辑不一样。
# 只查1个文件时,或者查多个文件,查找第一个文件时,是要初始遍历的。
# 但是查第二个文件时,从第一次遍历的输出文件list中先去找,这样就会更快速。
while len(files) != 0:
start = datetime.datetime.now()
file = files.pop(0)
file = file + ".pdf"

# 先在第一次遍历的输出文件list中先去找
for i in ls_files:
if i.split('/')[-1] == file:
break
else:
pass
if i.split('/')[-1] == file:
end = datetime.datetime.now()
print("------------------------")
print('Finding file takes:[{}]'.format((end - start).seconds))
query_log_writer(querylog, file, i, start, end, "Yes")

ftp = ftpconnect(host, port, username, password)
downloadfile(ftp, i, localpath)
ftp.quit()

# 没找到的话,则重新跑list_all_dir_find_first函数,去找。
elif ls_items == []:
end = datetime.datetime.now()
print("------------------------")
print('No File Founded:[{}]'.format((end - start).seconds))
query_log_writer(querylog, file, i, start, end, "No")
files_remained.append(file)
else:
ftp = ftpconnect(host, port, username, password)
file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file)
ftp.quit()
print("------------------------")
while file_out.split('/')[-1] != file and ls_items != []:
ftp = ftpconnect(host, port, username, password)
file_out, ls_items, ls_files = list_all_dir_find_first(ftp, ls_items, ls_files, file)
ftp.quit()
print("------------------------")

end = datetime.datetime.now()
print("------------------------")
if file_out.split('/')[-1] == file:
print('Finding file takes:[{}]'.format((end - start).seconds))
query_log_writer(querylog, file, file_out, start, end, "Yes")
else:
print('No File Founded:[{}]'.format((end - start).seconds))
query_log_writer(querylog, file, file_out, start, end, "No")
files_remained.append(file)
print("------------------------")

ftp = ftpconnect(host, port, username, password)
downloadfile(ftp, file_out, localpath)
ftp.quit()
pass

print("\nTask finished.")

我也不知道该说啥去解释它了,因为真的是逻辑和例外情况写了挺多的。
包含但不限于:

  1. 防止FTP连接状态过久,被服务器强制timeout。查询一定文件后,退出ftp,重新登录ftp接续查询。
  2. 单次执行,查询多个文件。后面文件在前次文件查询的列表里继续查找,为了省时间。
    还有一些零零散散的小逻辑,为了省代码啥的。

其实没有太多的难的代码,主要是在未知ftp目录情况下,去全盘筛查文件,然后主要是循环的逻辑,以及一些异常情况的特殊处理逻辑。还有执行效率的考虑。

真的累。各种循环把我脑仁都循环疼了……

好在,终于把自己挖的坑,填上了。