word diff: handle zero length matches
authorPhillip Wood <phillip.wood@dunelm.org.uk>
Tue, 4 May 2021 09:27:34 +0000 (09:27 +0000)
committerJunio C Hamano <gitster@pobox.com>
Wed, 5 May 2021 09:53:42 +0000 (18:53 +0900)
commit0324e8fc6b297c9e61745dc4e7d110780334157d
tree1fd1960912ae578b9ebd1a26b35d7208ba89befb
parent48bf2fa8bad054d66bd79c6ba903c89c704201f7
word diff: handle zero length matches

If find_word_boundaries() encounters a zero length match (which can be
caused by matching a newline or using '*' instead of '+' in the regex)
we stop splitting the input into words which generates an inaccurate
diff. To fix this increment the start point when there is a zero
length match and try a new match. This is safe as posix regular
expressions always return the longest available match so a zero length
match means there are no longer matches available from the current
position.

Commit bf82940dbf1 (color-words: enable REG_NEWLINE to help user,
2009-01-17) prevented matching newlines in negated character classes
but it is still possible for the user to have an explicit newline
match in the regex which could cause a zero length match.

One could argue that having explicit newline matches or using '*'
rather than '+' are user errors but it seems to be better to work
round them than produce inaccurate diffs.

Signed-off-by: Phillip Wood <phillip.wood@dunelm.org.uk>
Signed-off-by: Junio C Hamano <gitster@pobox.com>
diff.c
t/t4034-diff-words.sh