Merge branch 'es/unpack-trees-oob-fix' into maint
[git] / t / t5616-partial-clone.sh
1 #!/bin/sh
2
3 test_description='git partial clone'
4
5 . ./test-lib.sh
6
7 # create a normal "src" repo where we can later create new commits.
8 # expect_1.oids will contain a list of the OIDs of all blobs.
9 test_expect_success 'setup normal src repo' '
10         echo "{print \$1}" >print_1.awk &&
11         echo "{print \$2}" >print_2.awk &&
12
13         git init src &&
14         for n in 1 2 3 4
15         do
16                 echo "This is file: $n" > src/file.$n.txt
17                 git -C src add file.$n.txt
18                 git -C src commit -m "file $n"
19                 git -C src ls-files -s file.$n.txt >>temp
20         done &&
21         awk -f print_2.awk <temp | sort >expect_1.oids &&
22         test_line_count = 4 expect_1.oids
23 '
24
25 # bare clone "src" giving "srv.bare" for use as our server.
26 test_expect_success 'setup bare clone for server' '
27         git clone --bare "file://$(pwd)/src" srv.bare &&
28         git -C srv.bare config --local uploadpack.allowfilter 1 &&
29         git -C srv.bare config --local uploadpack.allowanysha1inwant 1
30 '
31
32 # do basic partial clone from "srv.bare"
33 # confirm we are missing all of the known blobs.
34 # confirm partial clone was registered in the local config.
35 test_expect_success 'do partial clone 1' '
36         git clone --no-checkout --filter=blob:none "file://$(pwd)/srv.bare" pc1 &&
37
38         git -C pc1 rev-list --quiet --objects --missing=print HEAD >revs &&
39         awk -f print_1.awk revs |
40         sed "s/?//" |
41         sort >observed.oids &&
42
43         test_cmp expect_1.oids observed.oids &&
44         test "$(git -C pc1 config --local core.repositoryformatversion)" = "1" &&
45         test "$(git -C pc1 config --local remote.origin.promisor)" = "true" &&
46         test "$(git -C pc1 config --local remote.origin.partialclonefilter)" = "blob:none"
47 '
48
49 test_expect_success 'verify that .promisor file contains refs fetched' '
50         ls pc1/.git/objects/pack/pack-*.promisor >promisorlist &&
51         test_line_count = 1 promisorlist &&
52         git -C srv.bare rev-list HEAD >headhash &&
53         grep "$(cat headhash) HEAD" $(cat promisorlist) &&
54         grep "$(cat headhash) refs/heads/master" $(cat promisorlist)
55 '
56
57 # checkout master to force dynamic object fetch of blobs at HEAD.
58 test_expect_success 'verify checkout with dynamic object fetch' '
59         git -C pc1 rev-list --quiet --objects --missing=print HEAD >observed &&
60         test_line_count = 4 observed &&
61         git -C pc1 checkout master &&
62         git -C pc1 rev-list --quiet --objects --missing=print HEAD >observed &&
63         test_line_count = 0 observed
64 '
65
66 # create new commits in "src" repo to establish a blame history on file.1.txt
67 # and push to "srv.bare".
68 test_expect_success 'push new commits to server' '
69         git -C src remote add srv "file://$(pwd)/srv.bare" &&
70         for x in a b c d e
71         do
72                 echo "Mod file.1.txt $x" >>src/file.1.txt
73                 git -C src add file.1.txt
74                 git -C src commit -m "mod $x"
75         done &&
76         git -C src blame master -- file.1.txt >expect.blame &&
77         git -C src push -u srv master
78 '
79
80 # (partial) fetch in the partial clone repo from the promisor remote.
81 # verify that fetch inherited the filter-spec from the config and DOES NOT
82 # have the new blobs.
83 test_expect_success 'partial fetch inherits filter settings' '
84         git -C pc1 fetch origin &&
85         git -C pc1 rev-list --quiet --objects --missing=print \
86                 master..origin/master >observed &&
87         test_line_count = 5 observed
88 '
89
90 # force dynamic object fetch using diff.
91 # we should only get 1 new blob (for the file in origin/master).
92 test_expect_success 'verify diff causes dynamic object fetch' '
93         git -C pc1 diff master..origin/master -- file.1.txt &&
94         git -C pc1 rev-list --quiet --objects --missing=print \
95                  master..origin/master >observed &&
96         test_line_count = 4 observed
97 '
98
99 # force full dynamic object fetch of the file's history using blame.
100 # we should get the intermediate blobs for the file.
101 test_expect_success 'verify blame causes dynamic object fetch' '
102         git -C pc1 blame origin/master -- file.1.txt >observed.blame &&
103         test_cmp expect.blame observed.blame &&
104         git -C pc1 rev-list --quiet --objects --missing=print \
105                 master..origin/master >observed &&
106         test_line_count = 0 observed
107 '
108
109 # create new commits in "src" repo to establish a history on file.2.txt
110 # and push to "srv.bare".
111 test_expect_success 'push new commits to server for file.2.txt' '
112         for x in a b c d e f
113         do
114                 echo "Mod file.2.txt $x" >>src/file.2.txt
115                 git -C src add file.2.txt
116                 git -C src commit -m "mod $x"
117         done &&
118         git -C src push -u srv master
119 '
120
121 # Do FULL fetch by disabling inherited filter-spec using --no-filter.
122 # Verify we have all the new blobs.
123 test_expect_success 'override inherited filter-spec using --no-filter' '
124         git -C pc1 fetch --no-filter origin &&
125         git -C pc1 rev-list --quiet --objects --missing=print \
126                 master..origin/master >observed &&
127         test_line_count = 0 observed
128 '
129
130 # create new commits in "src" repo to establish a history on file.3.txt
131 # and push to "srv.bare".
132 test_expect_success 'push new commits to server for file.3.txt' '
133         for x in a b c d e f
134         do
135                 echo "Mod file.3.txt $x" >>src/file.3.txt
136                 git -C src add file.3.txt
137                 git -C src commit -m "mod $x"
138         done &&
139         git -C src push -u srv master
140 '
141
142 # Do a partial fetch and then try to manually fetch the missing objects.
143 # This can be used as the basis of a pre-command hook to bulk fetch objects
144 # perhaps combined with a command in dry-run mode.
145 test_expect_success 'manual prefetch of missing objects' '
146         git -C pc1 fetch --filter=blob:none origin &&
147
148         git -C pc1 rev-list --quiet --objects --missing=print \
149                  master..origin/master >revs &&
150         awk -f print_1.awk revs |
151         sed "s/?//" |
152         sort >observed.oids &&
153
154         test_line_count = 6 observed.oids &&
155         git -C pc1 fetch-pack --stdin "file://$(pwd)/srv.bare" <observed.oids &&
156
157         git -C pc1 rev-list --quiet --objects --missing=print \
158                 master..origin/master >revs &&
159         awk -f print_1.awk revs |
160         sed "s/?//" |
161         sort >observed.oids &&
162
163         test_line_count = 0 observed.oids
164 '
165
166 test_expect_success 'partial clone with transfer.fsckobjects=1 uses index-pack --fsck-objects' '
167         git init src &&
168         test_commit -C src x &&
169         test_config -C src uploadpack.allowfilter 1 &&
170         test_config -C src uploadpack.allowanysha1inwant 1 &&
171
172         GIT_TRACE="$(pwd)/trace" git -c transfer.fsckobjects=1 \
173                 clone --filter="blob:none" "file://$(pwd)/src" dst &&
174         grep "git index-pack.*--fsck-objects" trace
175 '
176
177 test_expect_success 'use fsck before and after manually fetching a missing subtree' '
178         # push new commit so server has a subtree
179         mkdir src/dir &&
180         echo "in dir" >src/dir/file.txt &&
181         git -C src add dir/file.txt &&
182         git -C src commit -m "file in dir" &&
183         git -C src push -u srv master &&
184         SUBTREE=$(git -C src rev-parse HEAD:dir) &&
185
186         rm -rf dst &&
187         git clone --no-checkout --filter=tree:0 "file://$(pwd)/srv.bare" dst &&
188         git -C dst fsck &&
189
190         # Make sure we only have commits, and all trees and blobs are missing.
191         git -C dst rev-list --missing=allow-any --objects master \
192                 >fetched_objects &&
193         awk -f print_1.awk fetched_objects |
194         xargs -n1 git -C dst cat-file -t >fetched_types &&
195
196         sort -u fetched_types >unique_types.observed &&
197         echo commit >unique_types.expected &&
198         test_cmp unique_types.expected unique_types.observed &&
199
200         # Auto-fetch a tree with cat-file.
201         git -C dst cat-file -p $SUBTREE >tree_contents &&
202         grep file.txt tree_contents &&
203
204         # fsck still works after an auto-fetch of a tree.
205         git -C dst fsck &&
206
207         # Auto-fetch all remaining trees and blobs with --missing=error
208         git -C dst rev-list --missing=error --objects master >fetched_objects &&
209         test_line_count = 70 fetched_objects &&
210
211         awk -f print_1.awk fetched_objects |
212         xargs -n1 git -C dst cat-file -t >fetched_types &&
213
214         sort -u fetched_types >unique_types.observed &&
215         test_write_lines blob commit tree >unique_types.expected &&
216         test_cmp unique_types.expected unique_types.observed
217 '
218
219 test_expect_success 'implicitly construct combine: filter with repeated flags' '
220         GIT_TRACE=$(pwd)/trace git clone --bare \
221                 --filter=blob:none --filter=tree:1 \
222                 "file://$(pwd)/srv.bare" pc2 &&
223         grep "trace:.* git pack-objects .*--filter=combine:blob:none+tree:1" \
224                 trace &&
225         git -C pc2 rev-list --objects --missing=allow-any HEAD >objects &&
226
227         # We should have gotten some root trees.
228         grep " $" objects &&
229         # Should not have gotten any non-root trees or blobs.
230         ! grep " ." objects &&
231
232         xargs -n 1 git -C pc2 cat-file -t <objects >types &&
233         sort -u types >unique_types.actual &&
234         test_write_lines commit tree >unique_types.expected &&
235         test_cmp unique_types.expected unique_types.actual
236 '
237
238 test_expect_success 'partial clone fetches blobs pointed to by refs even if normally filtered out' '
239         rm -rf src dst &&
240         git init src &&
241         test_commit -C src x &&
242         test_config -C src uploadpack.allowfilter 1 &&
243         test_config -C src uploadpack.allowanysha1inwant 1 &&
244
245         # Create a tag pointing to a blob.
246         BLOB=$(echo blob-contents | git -C src hash-object --stdin -w) &&
247         git -C src tag myblob "$BLOB" &&
248
249         git clone --filter="blob:none" "file://$(pwd)/src" dst 2>err &&
250         ! grep "does not point to a valid object" err &&
251         git -C dst fsck
252 '
253
254 test_expect_success 'fetch what is specified on CLI even if already promised' '
255         rm -rf src dst.git &&
256         git init src &&
257         test_commit -C src foo &&
258         test_config -C src uploadpack.allowfilter 1 &&
259         test_config -C src uploadpack.allowanysha1inwant 1 &&
260
261         git hash-object --stdin <src/foo.t >blob &&
262
263         git clone --bare --filter=blob:none "file://$(pwd)/src" dst.git &&
264         git -C dst.git rev-list --objects --quiet --missing=print HEAD >missing_before &&
265         grep "?$(cat blob)" missing_before &&
266         git -C dst.git fetch origin $(cat blob) &&
267         git -C dst.git rev-list --objects --quiet --missing=print HEAD >missing_after &&
268         ! grep "?$(cat blob)" missing_after
269 '
270
271 test_expect_success 'setup src repo for sparse filter' '
272         git init sparse-src &&
273         git -C sparse-src config --local uploadpack.allowfilter 1 &&
274         git -C sparse-src config --local uploadpack.allowanysha1inwant 1 &&
275         test_commit -C sparse-src one &&
276         test_commit -C sparse-src two &&
277         echo /one.t >sparse-src/only-one &&
278         git -C sparse-src add . &&
279         git -C sparse-src commit -m "add sparse checkout files"
280 '
281
282 test_expect_success 'partial clone with sparse filter succeeds' '
283         rm -rf dst.git &&
284         git clone --no-local --bare \
285                   --filter=sparse:oid=master:only-one \
286                   sparse-src dst.git &&
287         (
288                 cd dst.git &&
289                 git rev-list --objects --missing=print HEAD >out &&
290                 grep "^$(git rev-parse HEAD:one.t)" out &&
291                 grep "^?$(git rev-parse HEAD:two.t)" out
292         )
293 '
294
295 test_expect_success 'partial clone with unresolvable sparse filter fails cleanly' '
296         rm -rf dst.git &&
297         test_must_fail git clone --no-local --bare \
298                                  --filter=sparse:oid=master:no-such-name \
299                                  sparse-src dst.git 2>err &&
300         test_i18ngrep "unable to access sparse blob in .master:no-such-name" err &&
301         test_must_fail git clone --no-local --bare \
302                                  --filter=sparse:oid=master \
303                                  sparse-src dst.git 2>err &&
304         test_i18ngrep "unable to parse sparse filter data in" err
305 '
306
307 setup_triangle () {
308         rm -rf big-blob.txt server client promisor-remote &&
309
310         printf "line %d\n" $(test_seq 1 100) >big-blob.txt &&
311
312         # Create a server with 2 commits: a commit with a big blob and a child
313         # commit with an incremental change. Also, create a partial clone
314         # client that only contains the first commit.
315         git init server &&
316         git -C server config --local uploadpack.allowfilter 1 &&
317         cp big-blob.txt server &&
318         git -C server add big-blob.txt &&
319         git -C server commit -m "initial" &&
320         git clone --bare --filter=tree:0 "file://$(pwd)/server" client &&
321         echo another line >>server/big-blob.txt &&
322         git -C server commit -am "append line to big blob" &&
323
324         # Create a promisor remote that only contains the blob from the first
325         # commit, and set it as the promisor remote of client. Thus, whenever
326         # the client lazy fetches, the lazy fetch will succeed only if it is
327         # for this blob.
328         git init promisor-remote &&
329         test_commit -C promisor-remote one && # so that ref advertisement is not empty
330         git -C promisor-remote config --local uploadpack.allowanysha1inwant 1 &&
331         git -C promisor-remote hash-object -w --stdin <big-blob.txt &&
332         git -C client remote set-url origin "file://$(pwd)/promisor-remote"
333 }
334
335 # NEEDSWORK: The tests beginning with "fetch lazy-fetches" below only
336 # test that "fetch" avoid fetching trees and blobs, but not commits or
337 # tags. Revisit this if Git is ever taught to support partial clones
338 # with commits and/or tags filtered out.
339
340 test_expect_success 'fetch lazy-fetches only to resolve deltas' '
341         setup_triangle &&
342
343         # Exercise to make sure it works. Git will not fetch anything from the
344         # promisor remote other than for the big blob (because it needs to
345         # resolve the delta).
346         GIT_TRACE_PACKET="$(pwd)/trace" git -C client \
347                 fetch "file://$(pwd)/server" master &&
348
349         # Verify the assumption that the client needed to fetch the delta base
350         # to resolve the delta.
351         git hash-object big-blob.txt >hash &&
352         grep "want $(cat hash)" trace
353 '
354
355 test_expect_success 'fetch lazy-fetches only to resolve deltas, protocol v2' '
356         setup_triangle &&
357
358         git -C server config --local protocol.version 2 &&
359         git -C client config --local protocol.version 2 &&
360         git -C promisor-remote config --local protocol.version 2 &&
361
362         # Exercise to make sure it works. Git will not fetch anything from the
363         # promisor remote other than for the big blob (because it needs to
364         # resolve the delta).
365         GIT_TRACE_PACKET="$(pwd)/trace" git -C client \
366                 fetch "file://$(pwd)/server" master &&
367
368         # Verify that protocol version 2 was used.
369         grep "fetch< version 2" trace &&
370
371         # Verify the assumption that the client needed to fetch the delta base
372         # to resolve the delta.
373         git hash-object big-blob.txt >hash &&
374         grep "want $(cat hash)" trace
375 '
376
377 . "$TEST_DIRECTORY"/lib-httpd.sh
378 start_httpd
379
380 # Converts bytes into their hexadecimal representation. For example,
381 # "printf 'ab\r\n' | hex_unpack" results in '61620d0a'.
382 hex_unpack () {
383         perl -e '$/ = undef; $input = <>; print unpack("H2" x length($input), $input)'
384 }
385
386 # Inserts $1 at the start of the string and every 2 characters thereafter.
387 intersperse () {
388         sed 's/\(..\)/'$1'\1/g'
389 }
390
391 # Create a one-time-sed command to replace the existing packfile with $1.
392 replace_packfile () {
393         # The protocol requires that the packfile be sent in sideband 1, hence
394         # the extra \x01 byte at the beginning.
395         printf "1,/packfile/!c %04x\\\\x01%s0000" \
396                 "$(($(wc -c <$1) + 5))" \
397                 "$(hex_unpack <$1 | intersperse '\\x')" \
398                 >"$HTTPD_ROOT_PATH/one-time-sed"
399 }
400
401 test_expect_success 'upon cloning, check that all refs point to objects' '
402         SERVER="$HTTPD_DOCUMENT_ROOT_PATH/server" &&
403         rm -rf "$SERVER" repo &&
404         test_create_repo "$SERVER" &&
405         test_commit -C "$SERVER" foo &&
406         test_config -C "$SERVER" uploadpack.allowfilter 1 &&
407         test_config -C "$SERVER" uploadpack.allowanysha1inwant 1 &&
408
409         # Create a tag pointing to a blob.
410         BLOB=$(echo blob-contents | git -C "$SERVER" hash-object --stdin -w) &&
411         git -C "$SERVER" tag myblob "$BLOB" &&
412
413         # Craft a packfile not including that blob.
414         git -C "$SERVER" rev-parse HEAD |
415         git -C "$SERVER" pack-objects --stdout >incomplete.pack &&
416
417         # Replace the existing packfile with the crafted one. The protocol
418         # requires that the packfile be sent in sideband 1, hence the extra
419         # \x01 byte at the beginning.
420         replace_packfile incomplete.pack &&
421
422         # Use protocol v2 because the sed command looks for the "packfile"
423         # section header.
424         test_config -C "$SERVER" protocol.version 2 &&
425         test_must_fail git -c protocol.version=2 clone \
426                 --filter=blob:none $HTTPD_URL/one_time_sed/server repo 2>err &&
427
428         test_i18ngrep "did not send all necessary objects" err &&
429
430         # Ensure that the one-time-sed script was used.
431         ! test -e "$HTTPD_ROOT_PATH/one-time-sed"
432 '
433
434 test_expect_success 'when partial cloning, tolerate server not sending target of tag' '
435         SERVER="$HTTPD_DOCUMENT_ROOT_PATH/server" &&
436         rm -rf "$SERVER" repo &&
437         test_create_repo "$SERVER" &&
438         test_commit -C "$SERVER" foo &&
439         test_config -C "$SERVER" uploadpack.allowfilter 1 &&
440         test_config -C "$SERVER" uploadpack.allowanysha1inwant 1 &&
441
442         # Create an annotated tag pointing to a blob.
443         BLOB=$(echo blob-contents | git -C "$SERVER" hash-object --stdin -w) &&
444         git -C "$SERVER" tag -m message -a myblob "$BLOB" &&
445
446         # Craft a packfile including the tag, but not the blob it points to.
447         # Also, omit objects referenced from HEAD in order to force a second
448         # fetch (to fetch missing objects) upon the automatic checkout that
449         # happens after a clone.
450         printf "%s\n%s\n--not\n%s\n%s\n" \
451                 $(git -C "$SERVER" rev-parse HEAD) \
452                 $(git -C "$SERVER" rev-parse myblob) \
453                 $(git -C "$SERVER" rev-parse HEAD^{tree}) \
454                 $(git -C "$SERVER" rev-parse myblob^{blob}) |
455                 git -C "$SERVER" pack-objects --thin --stdout >incomplete.pack &&
456
457         # Replace the existing packfile with the crafted one. The protocol
458         # requires that the packfile be sent in sideband 1, hence the extra
459         # \x01 byte at the beginning.
460         replace_packfile incomplete.pack &&
461
462         # Use protocol v2 because the sed command looks for the "packfile"
463         # section header.
464         test_config -C "$SERVER" protocol.version 2 &&
465
466         # Exercise to make sure it works.
467         git -c protocol.version=2 clone \
468                 --filter=blob:none $HTTPD_URL/one_time_sed/server repo 2> err &&
469         ! grep "missing object referenced by" err &&
470
471         # Ensure that the one-time-sed script was used.
472         ! test -e "$HTTPD_ROOT_PATH/one-time-sed"
473 '
474
475 test_expect_success 'tolerate server sending REF_DELTA against missing promisor objects' '
476         SERVER="$HTTPD_DOCUMENT_ROOT_PATH/server" &&
477         rm -rf "$SERVER" repo &&
478         test_create_repo "$SERVER" &&
479         test_config -C "$SERVER" uploadpack.allowfilter 1 &&
480         test_config -C "$SERVER" uploadpack.allowanysha1inwant 1 &&
481
482         # Create a commit with 2 blobs to be used as delta bases.
483         for i in $(test_seq 10)
484         do
485                 echo "this is a line" >>"$SERVER/foo.txt" &&
486                 echo "this is another line" >>"$SERVER/have.txt"
487         done &&
488         git -C "$SERVER" add foo.txt have.txt &&
489         git -C "$SERVER" commit -m bar &&
490         git -C "$SERVER" rev-parse HEAD:foo.txt >deltabase_missing &&
491         git -C "$SERVER" rev-parse HEAD:have.txt >deltabase_have &&
492
493         # Clone. The client has deltabase_have but not deltabase_missing.
494         git -c protocol.version=2 clone --no-checkout \
495                 --filter=blob:none $HTTPD_URL/one_time_sed/server repo &&
496         git -C repo hash-object -w -- "$SERVER/have.txt" &&
497
498         # Sanity check to ensure that the client does not have
499         # deltabase_missing.
500         git -C repo rev-list --objects --ignore-missing \
501                 -- $(cat deltabase_missing) >objlist &&
502         test_line_count = 0 objlist &&
503
504         # Another commit. This commit will be fetched by the client.
505         echo "abcdefghijklmnopqrstuvwxyz" >>"$SERVER/foo.txt" &&
506         echo "abcdefghijklmnopqrstuvwxyz" >>"$SERVER/have.txt" &&
507         git -C "$SERVER" add foo.txt have.txt &&
508         git -C "$SERVER" commit -m baz &&
509
510         # Pack a thin pack containing, among other things, HEAD:foo.txt
511         # delta-ed against HEAD^:foo.txt and HEAD:have.txt delta-ed against
512         # HEAD^:have.txt.
513         printf "%s\n--not\n%s\n" \
514                 $(git -C "$SERVER" rev-parse HEAD) \
515                 $(git -C "$SERVER" rev-parse HEAD^) |
516                 git -C "$SERVER" pack-objects --thin --stdout >thin.pack &&
517
518         # Ensure that the pack contains one delta against HEAD^:foo.txt. Since
519         # the delta contains at least 26 novel characters, the size cannot be
520         # contained in 4 bits, so the object header will take up 2 bytes. The
521         # most significant nybble of the first byte is 0b1111 (0b1 to indicate
522         # that the header continues, and 0b111 to indicate REF_DELTA), followed
523         # by any 3 nybbles, then the OID of the delta base.
524         printf "f.,..%s" $(intersperse "," <deltabase_missing) >want &&
525         hex_unpack <thin.pack | intersperse "," >have &&
526         grep $(cat want) have &&
527
528         # Ensure that the pack contains one delta against HEAD^:have.txt,
529         # similar to the above.
530         printf "f.,..%s" $(intersperse "," <deltabase_have) >want &&
531         hex_unpack <thin.pack | intersperse "," >have &&
532         grep $(cat want) have &&
533
534         replace_packfile thin.pack &&
535
536         # Use protocol v2 because the sed command looks for the "packfile"
537         # section header.
538         test_config -C "$SERVER" protocol.version 2 &&
539
540         # Fetch the thin pack and ensure that index-pack is able to handle the
541         # REF_DELTA object with a missing promisor delta base.
542         GIT_TRACE_PACKET="$(pwd)/trace" git -C repo -c protocol.version=2 fetch &&
543
544         # Ensure that the missing delta base was directly fetched, but not the
545         # one that the client has.
546         grep "want $(cat deltabase_missing)" trace &&
547         ! grep "want $(cat deltabase_have)" trace &&
548
549         # Ensure that the one-time-sed script was used.
550         ! test -e "$HTTPD_ROOT_PATH/one-time-sed"
551 '
552
553 # DO NOT add non-httpd-specific tests here, because the last part of this
554 # test script is only executed when httpd is available and enabled.
555
556 test_done