[PATCH] remove NFSD_OPTIMIZE_SPACE
[linux-2.6] / fs / namei.c
1 /*
2  *  linux/fs/namei.c
3  *
4  *  Copyright (C) 1991, 1992  Linus Torvalds
5  */
6
7 /*
8  * Some corrections by tytso.
9  */
10
11 /* [Feb 1997 T. Schoebel-Theuer] Complete rewrite of the pathname
12  * lookup logic.
13  */
14 /* [Feb-Apr 2000, AV] Rewrite to the new namespace architecture.
15  */
16
17 #include <linux/init.h>
18 #include <linux/module.h>
19 #include <linux/slab.h>
20 #include <linux/fs.h>
21 #include <linux/namei.h>
22 #include <linux/quotaops.h>
23 #include <linux/pagemap.h>
24 #include <linux/fsnotify.h>
25 #include <linux/smp_lock.h>
26 #include <linux/personality.h>
27 #include <linux/security.h>
28 #include <linux/syscalls.h>
29 #include <linux/mount.h>
30 #include <linux/audit.h>
31 #include <linux/capability.h>
32 #include <linux/file.h>
33 #include <linux/fcntl.h>
34 #include <linux/namei.h>
35 #include <asm/namei.h>
36 #include <asm/uaccess.h>
37
38 #define ACC_MODE(x) ("\000\004\002\006"[(x)&O_ACCMODE])
39
40 /* [Feb-1997 T. Schoebel-Theuer]
41  * Fundamental changes in the pathname lookup mechanisms (namei)
42  * were necessary because of omirr.  The reason is that omirr needs
43  * to know the _real_ pathname, not the user-supplied one, in case
44  * of symlinks (and also when transname replacements occur).
45  *
46  * The new code replaces the old recursive symlink resolution with
47  * an iterative one (in case of non-nested symlink chains).  It does
48  * this with calls to <fs>_follow_link().
49  * As a side effect, dir_namei(), _namei() and follow_link() are now 
50  * replaced with a single function lookup_dentry() that can handle all 
51  * the special cases of the former code.
52  *
53  * With the new dcache, the pathname is stored at each inode, at least as
54  * long as the refcount of the inode is positive.  As a side effect, the
55  * size of the dcache depends on the inode cache and thus is dynamic.
56  *
57  * [29-Apr-1998 C. Scott Ananian] Updated above description of symlink
58  * resolution to correspond with current state of the code.
59  *
60  * Note that the symlink resolution is not *completely* iterative.
61  * There is still a significant amount of tail- and mid- recursion in
62  * the algorithm.  Also, note that <fs>_readlink() is not used in
63  * lookup_dentry(): lookup_dentry() on the result of <fs>_readlink()
64  * may return different results than <fs>_follow_link().  Many virtual
65  * filesystems (including /proc) exhibit this behavior.
66  */
67
68 /* [24-Feb-97 T. Schoebel-Theuer] Side effects caused by new implementation:
69  * New symlink semantics: when open() is called with flags O_CREAT | O_EXCL
70  * and the name already exists in form of a symlink, try to create the new
71  * name indicated by the symlink. The old code always complained that the
72  * name already exists, due to not following the symlink even if its target
73  * is nonexistent.  The new semantics affects also mknod() and link() when
74  * the name is a symlink pointing to a non-existant name.
75  *
76  * I don't know which semantics is the right one, since I have no access
77  * to standards. But I found by trial that HP-UX 9.0 has the full "new"
78  * semantics implemented, while SunOS 4.1.1 and Solaris (SunOS 5.4) have the
79  * "old" one. Personally, I think the new semantics is much more logical.
80  * Note that "ln old new" where "new" is a symlink pointing to a non-existing
81  * file does succeed in both HP-UX and SunOs, but not in Solaris
82  * and in the old Linux semantics.
83  */
84
85 /* [16-Dec-97 Kevin Buhr] For security reasons, we change some symlink
86  * semantics.  See the comments in "open_namei" and "do_link" below.
87  *
88  * [10-Sep-98 Alan Modra] Another symlink change.
89  */
90
91 /* [Feb-Apr 2000 AV] Complete rewrite. Rules for symlinks:
92  *      inside the path - always follow.
93  *      in the last component in creation/removal/renaming - never follow.
94  *      if LOOKUP_FOLLOW passed - follow.
95  *      if the pathname has trailing slashes - follow.
96  *      otherwise - don't follow.
97  * (applied in that order).
98  *
99  * [Jun 2000 AV] Inconsistent behaviour of open() in case if flags==O_CREAT
100  * restored for 2.4. This is the last surviving part of old 4.2BSD bug.
101  * During the 2.4 we need to fix the userland stuff depending on it -
102  * hopefully we will be able to get rid of that wart in 2.5. So far only
103  * XEmacs seems to be relying on it...
104  */
105 /*
106  * [Sep 2001 AV] Single-semaphore locking scheme (kudos to David Holland)
107  * implemented.  Let's see if raised priority of ->s_vfs_rename_mutex gives
108  * any extra contention...
109  */
110
111 /* In order to reduce some races, while at the same time doing additional
112  * checking and hopefully speeding things up, we copy filenames to the
113  * kernel data space before using them..
114  *
115  * POSIX.1 2.4: an empty pathname is invalid (ENOENT).
116  * PATH_MAX includes the nul terminator --RR.
117  */
118 static int do_getname(const char __user *filename, char *page)
119 {
120         int retval;
121         unsigned long len = PATH_MAX;
122
123         if (!segment_eq(get_fs(), KERNEL_DS)) {
124                 if ((unsigned long) filename >= TASK_SIZE)
125                         return -EFAULT;
126                 if (TASK_SIZE - (unsigned long) filename < PATH_MAX)
127                         len = TASK_SIZE - (unsigned long) filename;
128         }
129
130         retval = strncpy_from_user(page, filename, len);
131         if (retval > 0) {
132                 if (retval < len)
133                         return 0;
134                 return -ENAMETOOLONG;
135         } else if (!retval)
136                 retval = -ENOENT;
137         return retval;
138 }
139
140 char * getname(const char __user * filename)
141 {
142         char *tmp, *result;
143
144         result = ERR_PTR(-ENOMEM);
145         tmp = __getname();
146         if (tmp)  {
147                 int retval = do_getname(filename, tmp);
148
149                 result = tmp;
150                 if (retval < 0) {
151                         __putname(tmp);
152                         result = ERR_PTR(retval);
153                 }
154         }
155         audit_getname(result);
156         return result;
157 }
158
159 #ifdef CONFIG_AUDITSYSCALL
160 void putname(const char *name)
161 {
162         if (unlikely(!audit_dummy_context()))
163                 audit_putname(name);
164         else
165                 __putname(name);
166 }
167 EXPORT_SYMBOL(putname);
168 #endif
169
170
171 /**
172  * generic_permission  -  check for access rights on a Posix-like filesystem
173  * @inode:      inode to check access rights for
174  * @mask:       right to check for (%MAY_READ, %MAY_WRITE, %MAY_EXEC)
175  * @check_acl:  optional callback to check for Posix ACLs
176  *
177  * Used to check for read/write/execute permissions on a file.
178  * We use "fsuid" for this, letting us set arbitrary permissions
179  * for filesystem access without changing the "normal" uids which
180  * are used for other things..
181  */
182 int generic_permission(struct inode *inode, int mask,
183                 int (*check_acl)(struct inode *inode, int mask))
184 {
185         umode_t                 mode = inode->i_mode;
186
187         if (current->fsuid == inode->i_uid)
188                 mode >>= 6;
189         else {
190                 if (IS_POSIXACL(inode) && (mode & S_IRWXG) && check_acl) {
191                         int error = check_acl(inode, mask);
192                         if (error == -EACCES)
193                                 goto check_capabilities;
194                         else if (error != -EAGAIN)
195                                 return error;
196                 }
197
198                 if (in_group_p(inode->i_gid))
199                         mode >>= 3;
200         }
201
202         /*
203          * If the DACs are ok we don't need any capability check.
204          */
205         if (((mode & mask & (MAY_READ|MAY_WRITE|MAY_EXEC)) == mask))
206                 return 0;
207
208  check_capabilities:
209         /*
210          * Read/write DACs are always overridable.
211          * Executable DACs are overridable if at least one exec bit is set.
212          */
213         if (!(mask & MAY_EXEC) ||
214             (inode->i_mode & S_IXUGO) || S_ISDIR(inode->i_mode))
215                 if (capable(CAP_DAC_OVERRIDE))
216                         return 0;
217
218         /*
219          * Searching includes executable on directories, else just read.
220          */
221         if (mask == MAY_READ || (S_ISDIR(inode->i_mode) && !(mask & MAY_WRITE)))
222                 if (capable(CAP_DAC_READ_SEARCH))
223                         return 0;
224
225         return -EACCES;
226 }
227
228 int permission(struct inode *inode, int mask, struct nameidata *nd)
229 {
230         umode_t mode = inode->i_mode;
231         int retval, submask;
232
233         if (mask & MAY_WRITE) {
234
235                 /*
236                  * Nobody gets write access to a read-only fs.
237                  */
238                 if (IS_RDONLY(inode) &&
239                     (S_ISREG(mode) || S_ISDIR(mode) || S_ISLNK(mode)))
240                         return -EROFS;
241
242                 /*
243                  * Nobody gets write access to an immutable file.
244                  */
245                 if (IS_IMMUTABLE(inode))
246                         return -EACCES;
247         }
248
249
250         /*
251          * MAY_EXEC on regular files requires special handling: We override
252          * filesystem execute permissions if the mode bits aren't set or
253          * the fs is mounted with the "noexec" flag.
254          */
255         if ((mask & MAY_EXEC) && S_ISREG(mode) && (!(mode & S_IXUGO) ||
256                         (nd && nd->mnt && (nd->mnt->mnt_flags & MNT_NOEXEC))))
257                 return -EACCES;
258
259         /* Ordinary permission routines do not understand MAY_APPEND. */
260         submask = mask & ~MAY_APPEND;
261         if (inode->i_op && inode->i_op->permission)
262                 retval = inode->i_op->permission(inode, submask, nd);
263         else
264                 retval = generic_permission(inode, submask, NULL);
265         if (retval)
266                 return retval;
267
268         return security_inode_permission(inode, mask, nd);
269 }
270
271 /**
272  * vfs_permission  -  check for access rights to a given path
273  * @nd:         lookup result that describes the path
274  * @mask:       right to check for (%MAY_READ, %MAY_WRITE, %MAY_EXEC)
275  *
276  * Used to check for read/write/execute permissions on a path.
277  * We use "fsuid" for this, letting us set arbitrary permissions
278  * for filesystem access without changing the "normal" uids which
279  * are used for other things.
280  */
281 int vfs_permission(struct nameidata *nd, int mask)
282 {
283         return permission(nd->dentry->d_inode, mask, nd);
284 }
285
286 /**
287  * file_permission  -  check for additional access rights to a given file
288  * @file:       file to check access rights for
289  * @mask:       right to check for (%MAY_READ, %MAY_WRITE, %MAY_EXEC)
290  *
291  * Used to check for read/write/execute permissions on an already opened
292  * file.
293  *
294  * Note:
295  *      Do not use this function in new code.  All access checks should
296  *      be done using vfs_permission().
297  */
298 int file_permission(struct file *file, int mask)
299 {
300         return permission(file->f_dentry->d_inode, mask, NULL);
301 }
302
303 /*
304  * get_write_access() gets write permission for a file.
305  * put_write_access() releases this write permission.
306  * This is used for regular files.
307  * We cannot support write (and maybe mmap read-write shared) accesses and
308  * MAP_DENYWRITE mmappings simultaneously. The i_writecount field of an inode
309  * can have the following values:
310  * 0: no writers, no VM_DENYWRITE mappings
311  * < 0: (-i_writecount) vm_area_structs with VM_DENYWRITE set exist
312  * > 0: (i_writecount) users are writing to the file.
313  *
314  * Normally we operate on that counter with atomic_{inc,dec} and it's safe
315  * except for the cases where we don't hold i_writecount yet. Then we need to
316  * use {get,deny}_write_access() - these functions check the sign and refuse
317  * to do the change if sign is wrong. Exclusion between them is provided by
318  * the inode->i_lock spinlock.
319  */
320
321 int get_write_access(struct inode * inode)
322 {
323         spin_lock(&inode->i_lock);
324         if (atomic_read(&inode->i_writecount) < 0) {
325                 spin_unlock(&inode->i_lock);
326                 return -ETXTBSY;
327         }
328         atomic_inc(&inode->i_writecount);
329         spin_unlock(&inode->i_lock);
330
331         return 0;
332 }
333
334 int deny_write_access(struct file * file)
335 {
336         struct inode *inode = file->f_dentry->d_inode;
337
338         spin_lock(&inode->i_lock);
339         if (atomic_read(&inode->i_writecount) > 0) {
340                 spin_unlock(&inode->i_lock);
341                 return -ETXTBSY;
342         }
343         atomic_dec(&inode->i_writecount);
344         spin_unlock(&inode->i_lock);
345
346         return 0;
347 }
348
349 void path_release(struct nameidata *nd)
350 {
351         dput(nd->dentry);
352         mntput(nd->mnt);
353 }
354
355 /*
356  * umount() mustn't call path_release()/mntput() as that would clear
357  * mnt_expiry_mark
358  */
359 void path_release_on_umount(struct nameidata *nd)
360 {
361         dput(nd->dentry);
362         mntput_no_expire(nd->mnt);
363 }
364
365 /**
366  * release_open_intent - free up open intent resources
367  * @nd: pointer to nameidata
368  */
369 void release_open_intent(struct nameidata *nd)
370 {
371         if (nd->intent.open.file->f_dentry == NULL)
372                 put_filp(nd->intent.open.file);
373         else
374                 fput(nd->intent.open.file);
375 }
376
377 static inline struct dentry *
378 do_revalidate(struct dentry *dentry, struct nameidata *nd)
379 {
380         int status = dentry->d_op->d_revalidate(dentry, nd);
381         if (unlikely(status <= 0)) {
382                 /*
383                  * The dentry failed validation.
384                  * If d_revalidate returned 0 attempt to invalidate
385                  * the dentry otherwise d_revalidate is asking us
386                  * to return a fail status.
387                  */
388                 if (!status) {
389                         if (!d_invalidate(dentry)) {
390                                 dput(dentry);
391                                 dentry = NULL;
392                         }
393                 } else {
394                         dput(dentry);
395                         dentry = ERR_PTR(status);
396                 }
397         }
398         return dentry;
399 }
400
401 /*
402  * Internal lookup() using the new generic dcache.
403  * SMP-safe
404  */
405 static struct dentry * cached_lookup(struct dentry * parent, struct qstr * name, struct nameidata *nd)
406 {
407         struct dentry * dentry = __d_lookup(parent, name);
408
409         /* lockess __d_lookup may fail due to concurrent d_move() 
410          * in some unrelated directory, so try with d_lookup
411          */
412         if (!dentry)
413                 dentry = d_lookup(parent, name);
414
415         if (dentry && dentry->d_op && dentry->d_op->d_revalidate)
416                 dentry = do_revalidate(dentry, nd);
417
418         return dentry;
419 }
420
421 /*
422  * Short-cut version of permission(), for calling by
423  * path_walk(), when dcache lock is held.  Combines parts
424  * of permission() and generic_permission(), and tests ONLY for
425  * MAY_EXEC permission.
426  *
427  * If appropriate, check DAC only.  If not appropriate, or
428  * short-cut DAC fails, then call permission() to do more
429  * complete permission check.
430  */
431 static int exec_permission_lite(struct inode *inode,
432                                        struct nameidata *nd)
433 {
434         umode_t mode = inode->i_mode;
435
436         if (inode->i_op && inode->i_op->permission)
437                 return -EAGAIN;
438
439         if (current->fsuid == inode->i_uid)
440                 mode >>= 6;
441         else if (in_group_p(inode->i_gid))
442                 mode >>= 3;
443
444         if (mode & MAY_EXEC)
445                 goto ok;
446
447         if ((inode->i_mode & S_IXUGO) && capable(CAP_DAC_OVERRIDE))
448                 goto ok;
449
450         if (S_ISDIR(inode->i_mode) && capable(CAP_DAC_OVERRIDE))
451                 goto ok;
452
453         if (S_ISDIR(inode->i_mode) && capable(CAP_DAC_READ_SEARCH))
454                 goto ok;
455
456         return -EACCES;
457 ok:
458         return security_inode_permission(inode, MAY_EXEC, nd);
459 }
460
461 /*
462  * This is called when everything else fails, and we actually have
463  * to go to the low-level filesystem to find out what we should do..
464  *
465  * We get the directory semaphore, and after getting that we also
466  * make sure that nobody added the entry to the dcache in the meantime..
467  * SMP-safe
468  */
469 static struct dentry * real_lookup(struct dentry * parent, struct qstr * name, struct nameidata *nd)
470 {
471         struct dentry * result;
472         struct inode *dir = parent->d_inode;
473
474         mutex_lock(&dir->i_mutex);
475         /*
476          * First re-do the cached lookup just in case it was created
477          * while we waited for the directory semaphore..
478          *
479          * FIXME! This could use version numbering or similar to
480          * avoid unnecessary cache lookups.
481          *
482          * The "dcache_lock" is purely to protect the RCU list walker
483          * from concurrent renames at this point (we mustn't get false
484          * negatives from the RCU list walk here, unlike the optimistic
485          * fast walk).
486          *
487          * so doing d_lookup() (with seqlock), instead of lockfree __d_lookup
488          */
489         result = d_lookup(parent, name);
490         if (!result) {
491                 struct dentry * dentry = d_alloc(parent, name);
492                 result = ERR_PTR(-ENOMEM);
493                 if (dentry) {
494                         result = dir->i_op->lookup(dir, dentry, nd);
495                         if (result)
496                                 dput(dentry);
497                         else
498                                 result = dentry;
499                 }
500                 mutex_unlock(&dir->i_mutex);
501                 return result;
502         }
503
504         /*
505          * Uhhuh! Nasty case: the cache was re-populated while
506          * we waited on the semaphore. Need to revalidate.
507          */
508         mutex_unlock(&dir->i_mutex);
509         if (result->d_op && result->d_op->d_revalidate) {
510                 result = do_revalidate(result, nd);
511                 if (!result)
512                         result = ERR_PTR(-ENOENT);
513         }
514         return result;
515 }
516
517 static int __emul_lookup_dentry(const char *, struct nameidata *);
518
519 /* SMP-safe */
520 static __always_inline int
521 walk_init_root(const char *name, struct nameidata *nd)
522 {
523         struct fs_struct *fs = current->fs;
524
525         read_lock(&fs->lock);
526         if (fs->altroot && !(nd->flags & LOOKUP_NOALT)) {
527                 nd->mnt = mntget(fs->altrootmnt);
528                 nd->dentry = dget(fs->altroot);
529                 read_unlock(&fs->lock);
530                 if (__emul_lookup_dentry(name,nd))
531                         return 0;
532                 read_lock(&fs->lock);
533         }
534         nd->mnt = mntget(fs->rootmnt);
535         nd->dentry = dget(fs->root);
536         read_unlock(&fs->lock);
537         return 1;
538 }
539
540 static __always_inline int __vfs_follow_link(struct nameidata *nd, const char *link)
541 {
542         int res = 0;
543         char *name;
544         if (IS_ERR(link))
545                 goto fail;
546
547         if (*link == '/') {
548                 path_release(nd);
549                 if (!walk_init_root(link, nd))
550                         /* weird __emul_prefix() stuff did it */
551                         goto out;
552         }
553         res = link_path_walk(link, nd);
554 out:
555         if (nd->depth || res || nd->last_type!=LAST_NORM)
556                 return res;
557         /*
558          * If it is an iterative symlinks resolution in open_namei() we
559          * have to copy the last component. And all that crap because of
560          * bloody create() on broken symlinks. Furrfu...
561          */
562         name = __getname();
563         if (unlikely(!name)) {
564                 path_release(nd);
565                 return -ENOMEM;
566         }
567         strcpy(name, nd->last.name);
568         nd->last.name = name;
569         return 0;
570 fail:
571         path_release(nd);
572         return PTR_ERR(link);
573 }
574
575 struct path {
576         struct vfsmount *mnt;
577         struct dentry *dentry;
578 };
579
580 static inline void dput_path(struct path *path, struct nameidata *nd)
581 {
582         dput(path->dentry);
583         if (path->mnt != nd->mnt)
584                 mntput(path->mnt);
585 }
586
587 static inline void path_to_nameidata(struct path *path, struct nameidata *nd)
588 {
589         dput(nd->dentry);
590         if (nd->mnt != path->mnt)
591                 mntput(nd->mnt);
592         nd->mnt = path->mnt;
593         nd->dentry = path->dentry;
594 }
595
596 static __always_inline int __do_follow_link(struct path *path, struct nameidata *nd)
597 {
598         int error;
599         void *cookie;
600         struct dentry *dentry = path->dentry;
601
602         touch_atime(path->mnt, dentry);
603         nd_set_link(nd, NULL);
604
605         if (path->mnt != nd->mnt) {
606                 path_to_nameidata(path, nd);
607                 dget(dentry);
608         }
609         mntget(path->mnt);
610         cookie = dentry->d_inode->i_op->follow_link(dentry, nd);
611         error = PTR_ERR(cookie);
612         if (!IS_ERR(cookie)) {
613                 char *s = nd_get_link(nd);
614                 error = 0;
615                 if (s)
616                         error = __vfs_follow_link(nd, s);
617                 if (dentry->d_inode->i_op->put_link)
618                         dentry->d_inode->i_op->put_link(dentry, nd, cookie);
619         }
620         dput(dentry);
621         mntput(path->mnt);
622
623         return error;
624 }
625
626 /*
627  * This limits recursive symlink follows to 8, while
628  * limiting consecutive symlinks to 40.
629  *
630  * Without that kind of total limit, nasty chains of consecutive
631  * symlinks can cause almost arbitrarily long lookups. 
632  */
633 static inline int do_follow_link(struct path *path, struct nameidata *nd)
634 {
635         int err = -ELOOP;
636         if (current->link_count >= MAX_NESTED_LINKS)
637                 goto loop;
638         if (current->total_link_count >= 40)
639                 goto loop;
640         BUG_ON(nd->depth >= MAX_NESTED_LINKS);
641         cond_resched();
642         err = security_inode_follow_link(path->dentry, nd);
643         if (err)
644                 goto loop;
645         current->link_count++;
646         current->total_link_count++;
647         nd->depth++;
648         err = __do_follow_link(path, nd);
649         current->link_count--;
650         nd->depth--;
651         return err;
652 loop:
653         dput_path(path, nd);
654         path_release(nd);
655         return err;
656 }
657
658 int follow_up(struct vfsmount **mnt, struct dentry **dentry)
659 {
660         struct vfsmount *parent;
661         struct dentry *mountpoint;
662         spin_lock(&vfsmount_lock);
663         parent=(*mnt)->mnt_parent;
664         if (parent == *mnt) {
665                 spin_unlock(&vfsmount_lock);
666                 return 0;
667         }
668         mntget(parent);
669         mountpoint=dget((*mnt)->mnt_mountpoint);
670         spin_unlock(&vfsmount_lock);
671         dput(*dentry);
672         *dentry = mountpoint;
673         mntput(*mnt);
674         *mnt = parent;
675         return 1;
676 }
677
678 /* no need for dcache_lock, as serialization is taken care in
679  * namespace.c
680  */
681 static int __follow_mount(struct path *path)
682 {
683         int res = 0;
684         while (d_mountpoint(path->dentry)) {
685                 struct vfsmount *mounted = lookup_mnt(path->mnt, path->dentry);
686                 if (!mounted)
687                         break;
688                 dput(path->dentry);
689                 if (res)
690                         mntput(path->mnt);
691                 path->mnt = mounted;
692                 path->dentry = dget(mounted->mnt_root);
693                 res = 1;
694         }
695         return res;
696 }
697
698 static void follow_mount(struct vfsmount **mnt, struct dentry **dentry)
699 {
700         while (d_mountpoint(*dentry)) {
701                 struct vfsmount *mounted = lookup_mnt(*mnt, *dentry);
702                 if (!mounted)
703                         break;
704                 dput(*dentry);
705                 mntput(*mnt);
706                 *mnt = mounted;
707                 *dentry = dget(mounted->mnt_root);
708         }
709 }
710
711 /* no need for dcache_lock, as serialization is taken care in
712  * namespace.c
713  */
714 int follow_down(struct vfsmount **mnt, struct dentry **dentry)
715 {
716         struct vfsmount *mounted;
717
718         mounted = lookup_mnt(*mnt, *dentry);
719         if (mounted) {
720                 dput(*dentry);
721                 mntput(*mnt);
722                 *mnt = mounted;
723                 *dentry = dget(mounted->mnt_root);
724                 return 1;
725         }
726         return 0;
727 }
728
729 static __always_inline void follow_dotdot(struct nameidata *nd)
730 {
731         struct fs_struct *fs = current->fs;
732
733         while(1) {
734                 struct vfsmount *parent;
735                 struct dentry *old = nd->dentry;
736
737                 read_lock(&fs->lock);
738                 if (nd->dentry == fs->root &&
739                     nd->mnt == fs->rootmnt) {
740                         read_unlock(&fs->lock);
741                         break;
742                 }
743                 read_unlock(&fs->lock);
744                 spin_lock(&dcache_lock);
745                 if (nd->dentry != nd->mnt->mnt_root) {
746                         nd->dentry = dget(nd->dentry->d_parent);
747                         spin_unlock(&dcache_lock);
748                         dput(old);
749                         break;
750                 }
751                 spin_unlock(&dcache_lock);
752                 spin_lock(&vfsmount_lock);
753                 parent = nd->mnt->mnt_parent;
754                 if (parent == nd->mnt) {
755                         spin_unlock(&vfsmount_lock);
756                         break;
757                 }
758                 mntget(parent);
759                 nd->dentry = dget(nd->mnt->mnt_mountpoint);
760                 spin_unlock(&vfsmount_lock);
761                 dput(old);
762                 mntput(nd->mnt);
763                 nd->mnt = parent;
764         }
765         follow_mount(&nd->mnt, &nd->dentry);
766 }
767
768 /*
769  *  It's more convoluted than I'd like it to be, but... it's still fairly
770  *  small and for now I'd prefer to have fast path as straight as possible.
771  *  It _is_ time-critical.
772  */
773 static int do_lookup(struct nameidata *nd, struct qstr *name,
774                      struct path *path)
775 {
776         struct vfsmount *mnt = nd->mnt;
777         struct dentry *dentry = __d_lookup(nd->dentry, name);
778
779         if (!dentry)
780                 goto need_lookup;
781         if (dentry->d_op && dentry->d_op->d_revalidate)
782                 goto need_revalidate;
783 done:
784         path->mnt = mnt;
785         path->dentry = dentry;
786         __follow_mount(path);
787         return 0;
788
789 need_lookup:
790         dentry = real_lookup(nd->dentry, name, nd);
791         if (IS_ERR(dentry))
792                 goto fail;
793         goto done;
794
795 need_revalidate:
796         dentry = do_revalidate(dentry, nd);
797         if (!dentry)
798                 goto need_lookup;
799         if (IS_ERR(dentry))
800                 goto fail;
801         goto done;
802
803 fail:
804         return PTR_ERR(dentry);
805 }
806
807 /*
808  * Name resolution.
809  * This is the basic name resolution function, turning a pathname into
810  * the final dentry. We expect 'base' to be positive and a directory.
811  *
812  * Returns 0 and nd will have valid dentry and mnt on success.
813  * Returns error and drops reference to input namei data on failure.
814  */
815 static fastcall int __link_path_walk(const char * name, struct nameidata *nd)
816 {
817         struct path next;
818         struct inode *inode;
819         int err;
820         unsigned int lookup_flags = nd->flags;
821         
822         while (*name=='/')
823                 name++;
824         if (!*name)
825                 goto return_reval;
826
827         inode = nd->dentry->d_inode;
828         if (nd->depth)
829                 lookup_flags = LOOKUP_FOLLOW | (nd->flags & LOOKUP_CONTINUE);
830
831         /* At this point we know we have a real path component. */
832         for(;;) {
833                 unsigned long hash;
834                 struct qstr this;
835                 unsigned int c;
836
837                 nd->flags |= LOOKUP_CONTINUE;
838                 err = exec_permission_lite(inode, nd);
839                 if (err == -EAGAIN)
840                         err = vfs_permission(nd, MAY_EXEC);
841                 if (err)
842                         break;
843
844                 this.name = name;
845                 c = *(const unsigned char *)name;
846
847                 hash = init_name_hash();
848                 do {
849                         name++;
850                         hash = partial_name_hash(c, hash);
851                         c = *(const unsigned char *)name;
852                 } while (c && (c != '/'));
853                 this.len = name - (const char *) this.name;
854                 this.hash = end_name_hash(hash);
855
856                 /* remove trailing slashes? */
857                 if (!c)
858                         goto last_component;
859                 while (*++name == '/');
860                 if (!*name)
861                         goto last_with_slashes;
862
863                 /*
864                  * "." and ".." are special - ".." especially so because it has
865                  * to be able to know about the current root directory and
866                  * parent relationships.
867                  */
868                 if (this.name[0] == '.') switch (this.len) {
869                         default:
870                                 break;
871                         case 2: 
872                                 if (this.name[1] != '.')
873                                         break;
874                                 follow_dotdot(nd);
875                                 inode = nd->dentry->d_inode;
876                                 /* fallthrough */
877                         case 1:
878                                 continue;
879                 }
880                 /*
881                  * See if the low-level filesystem might want
882                  * to use its own hash..
883                  */
884                 if (nd->dentry->d_op && nd->dentry->d_op->d_hash) {
885                         err = nd->dentry->d_op->d_hash(nd->dentry, &this);
886                         if (err < 0)
887                                 break;
888                 }
889                 /* This does the actual lookups.. */
890                 err = do_lookup(nd, &this, &next);
891                 if (err)
892                         break;
893
894                 err = -ENOENT;
895                 inode = next.dentry->d_inode;
896                 if (!inode)
897                         goto out_dput;
898                 err = -ENOTDIR; 
899                 if (!inode->i_op)
900                         goto out_dput;
901
902                 if (inode->i_op->follow_link) {
903                         err = do_follow_link(&next, nd);
904                         if (err)
905                                 goto return_err;
906                         err = -ENOENT;
907                         inode = nd->dentry->d_inode;
908                         if (!inode)
909                                 break;
910                         err = -ENOTDIR; 
911                         if (!inode->i_op)
912                                 break;
913                 } else
914                         path_to_nameidata(&next, nd);
915                 err = -ENOTDIR; 
916                 if (!inode->i_op->lookup)
917                         break;
918                 continue;
919                 /* here ends the main loop */
920
921 last_with_slashes:
922                 lookup_flags |= LOOKUP_FOLLOW | LOOKUP_DIRECTORY;
923 last_component:
924                 /* Clear LOOKUP_CONTINUE iff it was previously unset */
925                 nd->flags &= lookup_flags | ~LOOKUP_CONTINUE;
926                 if (lookup_flags & LOOKUP_PARENT)
927                         goto lookup_parent;
928                 if (this.name[0] == '.') switch (this.len) {
929                         default:
930                                 break;
931                         case 2: 
932                                 if (this.name[1] != '.')
933                                         break;
934                                 follow_dotdot(nd);
935                                 inode = nd->dentry->d_inode;
936                                 /* fallthrough */
937                         case 1:
938                                 goto return_reval;
939                 }
940                 if (nd->dentry->d_op && nd->dentry->d_op->d_hash) {
941                         err = nd->dentry->d_op->d_hash(nd->dentry, &this);
942                         if (err < 0)
943                                 break;
944                 }
945                 err = do_lookup(nd, &this, &next);
946                 if (err)
947                         break;
948                 inode = next.dentry->d_inode;
949                 if ((lookup_flags & LOOKUP_FOLLOW)
950                     && inode && inode->i_op && inode->i_op->follow_link) {
951                         err = do_follow_link(&next, nd);
952                         if (err)
953                                 goto return_err;
954                         inode = nd->dentry->d_inode;
955                 } else
956                         path_to_nameidata(&next, nd);
957                 err = -ENOENT;
958                 if (!inode)
959                         break;
960                 if (lookup_flags & LOOKUP_DIRECTORY) {
961                         err = -ENOTDIR; 
962                         if (!inode->i_op || !inode->i_op->lookup)
963                                 break;
964                 }
965                 goto return_base;
966 lookup_parent:
967                 nd->last = this;
968                 nd->last_type = LAST_NORM;
969                 if (this.name[0] != '.')
970                         goto return_base;
971                 if (this.len == 1)
972                         nd->last_type = LAST_DOT;
973                 else if (this.len == 2 && this.name[1] == '.')
974                         nd->last_type = LAST_DOTDOT;
975                 else
976                         goto return_base;
977 return_reval:
978                 /*
979                  * We bypassed the ordinary revalidation routines.
980                  * We may need to check the cached dentry for staleness.
981                  */
982                 if (nd->dentry && nd->dentry->d_sb &&
983                     (nd->dentry->d_sb->s_type->fs_flags & FS_REVAL_DOT)) {
984                         err = -ESTALE;
985                         /* Note: we do not d_invalidate() */
986                         if (!nd->dentry->d_op->d_revalidate(nd->dentry, nd))
987                                 break;
988                 }
989 return_base:
990                 return 0;
991 out_dput:
992                 dput_path(&next, nd);
993                 break;
994         }
995         path_release(nd);
996 return_err:
997         return err;
998 }
999
1000 /*
1001  * Wrapper to retry pathname resolution whenever the underlying
1002  * file system returns an ESTALE.
1003  *
1004  * Retry the whole path once, forcing real lookup requests
1005  * instead of relying on the dcache.
1006  */
1007 int fastcall link_path_walk(const char *name, struct nameidata *nd)
1008 {
1009         struct nameidata save = *nd;
1010         int result;
1011
1012         /* make sure the stuff we saved doesn't go away */
1013         dget(save.dentry);
1014         mntget(save.mnt);
1015
1016         result = __link_path_walk(name, nd);
1017         if (result == -ESTALE) {
1018                 *nd = save;
1019                 dget(nd->dentry);
1020                 mntget(nd->mnt);
1021                 nd->flags |= LOOKUP_REVAL;
1022                 result = __link_path_walk(name, nd);
1023         }
1024
1025         dput(save.dentry);
1026         mntput(save.mnt);
1027
1028         return result;
1029 }
1030
1031 int fastcall path_walk(const char * name, struct nameidata *nd)
1032 {
1033         current->total_link_count = 0;
1034         return link_path_walk(name, nd);
1035 }
1036
1037 /* 
1038  * SMP-safe: Returns 1 and nd will have valid dentry and mnt, if
1039  * everything is done. Returns 0 and drops input nd, if lookup failed;
1040  */
1041 static int __emul_lookup_dentry(const char *name, struct nameidata *nd)
1042 {
1043         if (path_walk(name, nd))
1044                 return 0;               /* something went wrong... */
1045
1046         if (!nd->dentry->d_inode || S_ISDIR(nd->dentry->d_inode->i_mode)) {
1047                 struct dentry *old_dentry = nd->dentry;
1048                 struct vfsmount *old_mnt = nd->mnt;
1049                 struct qstr last = nd->last;
1050                 int last_type = nd->last_type;
1051                 struct fs_struct *fs = current->fs;
1052
1053                 /*
1054                  * NAME was not found in alternate root or it's a directory.
1055                  * Try to find it in the normal root:
1056                  */
1057                 nd->last_type = LAST_ROOT;
1058                 read_lock(&fs->lock);
1059                 nd->mnt = mntget(fs->rootmnt);
1060                 nd->dentry = dget(fs->root);
1061                 read_unlock(&fs->lock);
1062                 if (path_walk(name, nd) == 0) {
1063                         if (nd->dentry->d_inode) {
1064                                 dput(old_dentry);
1065                                 mntput(old_mnt);
1066                                 return 1;
1067                         }
1068                         path_release(nd);
1069                 }
1070                 nd->dentry = old_dentry;
1071                 nd->mnt = old_mnt;
1072                 nd->last = last;
1073                 nd->last_type = last_type;
1074         }
1075         return 1;
1076 }
1077
1078 void set_fs_altroot(void)
1079 {
1080         char *emul = __emul_prefix();
1081         struct nameidata nd;
1082         struct vfsmount *mnt = NULL, *oldmnt;
1083         struct dentry *dentry = NULL, *olddentry;
1084         int err;
1085         struct fs_struct *fs = current->fs;
1086
1087         if (!emul)
1088                 goto set_it;
1089         err = path_lookup(emul, LOOKUP_FOLLOW|LOOKUP_DIRECTORY|LOOKUP_NOALT, &nd);
1090         if (!err) {
1091                 mnt = nd.mnt;
1092                 dentry = nd.dentry;
1093         }
1094 set_it:
1095         write_lock(&fs->lock);
1096         oldmnt = fs->altrootmnt;
1097         olddentry = fs->altroot;
1098         fs->altrootmnt = mnt;
1099         fs->altroot = dentry;
1100         write_unlock(&fs->lock);
1101         if (olddentry) {
1102                 dput(olddentry);
1103                 mntput(oldmnt);
1104         }
1105 }
1106
1107 /* Returns 0 and nd will be valid on success; Retuns error, otherwise. */
1108 static int fastcall do_path_lookup(int dfd, const char *name,
1109                                 unsigned int flags, struct nameidata *nd)
1110 {
1111         int retval = 0;
1112         int fput_needed;
1113         struct file *file;
1114         struct fs_struct *fs = current->fs;
1115
1116         nd->last_type = LAST_ROOT; /* if there are only slashes... */
1117         nd->flags = flags;
1118         nd->depth = 0;
1119
1120         if (*name=='/') {
1121                 read_lock(&fs->lock);
1122                 if (fs->altroot && !(nd->flags & LOOKUP_NOALT)) {
1123                         nd->mnt = mntget(fs->altrootmnt);
1124                         nd->dentry = dget(fs->altroot);
1125                         read_unlock(&fs->lock);
1126                         if (__emul_lookup_dentry(name,nd))
1127                                 goto out; /* found in altroot */
1128                         read_lock(&fs->lock);
1129                 }
1130                 nd->mnt = mntget(fs->rootmnt);
1131                 nd->dentry = dget(fs->root);
1132                 read_unlock(&fs->lock);
1133         } else if (dfd == AT_FDCWD) {
1134                 read_lock(&fs->lock);
1135                 nd->mnt = mntget(fs->pwdmnt);
1136                 nd->dentry = dget(fs->pwd);
1137                 read_unlock(&fs->lock);
1138         } else {
1139                 struct dentry *dentry;
1140
1141                 file = fget_light(dfd, &fput_needed);
1142                 retval = -EBADF;
1143                 if (!file)
1144                         goto out_fail;
1145
1146                 dentry = file->f_dentry;
1147
1148                 retval = -ENOTDIR;
1149                 if (!S_ISDIR(dentry->d_inode->i_mode))
1150                         goto fput_fail;
1151
1152                 retval = file_permission(file, MAY_EXEC);
1153                 if (retval)
1154                         goto fput_fail;
1155
1156                 nd->mnt = mntget(file->f_vfsmnt);
1157                 nd->dentry = dget(dentry);
1158
1159                 fput_light(file, fput_needed);
1160         }
1161         current->total_link_count = 0;
1162         retval = link_path_walk(name, nd);
1163 out:
1164         if (likely(retval == 0)) {
1165                 if (unlikely(!audit_dummy_context() && nd && nd->dentry &&
1166                                 nd->dentry->d_inode))
1167                 audit_inode(name, nd->dentry->d_inode);
1168         }
1169 out_fail:
1170         return retval;
1171
1172 fput_fail:
1173         fput_light(file, fput_needed);
1174         goto out_fail;
1175 }
1176
1177 int fastcall path_lookup(const char *name, unsigned int flags,
1178                         struct nameidata *nd)
1179 {
1180         return do_path_lookup(AT_FDCWD, name, flags, nd);
1181 }
1182
1183 static int __path_lookup_intent_open(int dfd, const char *name,
1184                 unsigned int lookup_flags, struct nameidata *nd,
1185                 int open_flags, int create_mode)
1186 {
1187         struct file *filp = get_empty_filp();
1188         int err;
1189
1190         if (filp == NULL)
1191                 return -ENFILE;
1192         nd->intent.open.file = filp;
1193         nd->intent.open.flags = open_flags;
1194         nd->intent.open.create_mode = create_mode;
1195         err = do_path_lookup(dfd, name, lookup_flags|LOOKUP_OPEN, nd);
1196         if (IS_ERR(nd->intent.open.file)) {
1197                 if (err == 0) {
1198                         err = PTR_ERR(nd->intent.open.file);
1199                         path_release(nd);
1200                 }
1201         } else if (err != 0)
1202                 release_open_intent(nd);
1203         return err;
1204 }
1205
1206 /**
1207  * path_lookup_open - lookup a file path with open intent
1208  * @dfd: the directory to use as base, or AT_FDCWD
1209  * @name: pointer to file name
1210  * @lookup_flags: lookup intent flags
1211  * @nd: pointer to nameidata
1212  * @open_flags: open intent flags
1213  */
1214 int path_lookup_open(int dfd, const char *name, unsigned int lookup_flags,
1215                 struct nameidata *nd, int open_flags)
1216 {
1217         return __path_lookup_intent_open(dfd, name, lookup_flags, nd,
1218                         open_flags, 0);
1219 }
1220
1221 /**
1222  * path_lookup_create - lookup a file path with open + create intent
1223  * @dfd: the directory to use as base, or AT_FDCWD
1224  * @name: pointer to file name
1225  * @lookup_flags: lookup intent flags
1226  * @nd: pointer to nameidata
1227  * @open_flags: open intent flags
1228  * @create_mode: create intent flags
1229  */
1230 static int path_lookup_create(int dfd, const char *name,
1231                               unsigned int lookup_flags, struct nameidata *nd,
1232                               int open_flags, int create_mode)
1233 {
1234         return __path_lookup_intent_open(dfd, name, lookup_flags|LOOKUP_CREATE,
1235                         nd, open_flags, create_mode);
1236 }
1237
1238 int __user_path_lookup_open(const char __user *name, unsigned int lookup_flags,
1239                 struct nameidata *nd, int open_flags)
1240 {
1241         char *tmp = getname(name);
1242         int err = PTR_ERR(tmp);
1243
1244         if (!IS_ERR(tmp)) {
1245                 err = __path_lookup_intent_open(AT_FDCWD, tmp, lookup_flags, nd, open_flags, 0);
1246                 putname(tmp);
1247         }
1248         return err;
1249 }
1250
1251 /*
1252  * Restricted form of lookup. Doesn't follow links, single-component only,
1253  * needs parent already locked. Doesn't follow mounts.
1254  * SMP-safe.
1255  */
1256 static struct dentry * __lookup_hash(struct qstr *name, struct dentry * base, struct nameidata *nd)
1257 {
1258         struct dentry * dentry;
1259         struct inode *inode;
1260         int err;
1261
1262         inode = base->d_inode;
1263         err = permission(inode, MAY_EXEC, nd);
1264         dentry = ERR_PTR(err);
1265         if (err)
1266                 goto out;
1267
1268         /*
1269          * See if the low-level filesystem might want
1270          * to use its own hash..
1271          */
1272         if (base->d_op && base->d_op->d_hash) {
1273                 err = base->d_op->d_hash(base, name);
1274                 dentry = ERR_PTR(err);
1275                 if (err < 0)
1276                         goto out;
1277         }
1278
1279         dentry = cached_lookup(base, name, nd);
1280         if (!dentry) {
1281                 struct dentry *new = d_alloc(base, name);
1282                 dentry = ERR_PTR(-ENOMEM);
1283                 if (!new)
1284                         goto out;
1285                 dentry = inode->i_op->lookup(inode, new, nd);
1286                 if (!dentry)
1287                         dentry = new;
1288                 else
1289                         dput(new);
1290         }
1291 out:
1292         return dentry;
1293 }
1294
1295 static struct dentry *lookup_hash(struct nameidata *nd)
1296 {
1297         return __lookup_hash(&nd->last, nd->dentry, nd);
1298 }
1299
1300 /* SMP-safe */
1301 struct dentry * lookup_one_len(const char * name, struct dentry * base, int len)
1302 {
1303         unsigned long hash;
1304         struct qstr this;
1305         unsigned int c;
1306
1307         this.name = name;
1308         this.len = len;
1309         if (!len)
1310                 goto access;
1311
1312         hash = init_name_hash();
1313         while (len--) {
1314                 c = *(const unsigned char *)name++;
1315                 if (c == '/' || c == '\0')
1316                         goto access;
1317                 hash = partial_name_hash(c, hash);
1318         }
1319         this.hash = end_name_hash(hash);
1320
1321         return __lookup_hash(&this, base, NULL);
1322 access:
1323         return ERR_PTR(-EACCES);
1324 }
1325
1326 /*
1327  *      namei()
1328  *
1329  * is used by most simple commands to get the inode of a specified name.
1330  * Open, link etc use their own routines, but this is enough for things
1331  * like 'chmod' etc.
1332  *
1333  * namei exists in two versions: namei/lnamei. The only difference is
1334  * that namei follows links, while lnamei does not.
1335  * SMP-safe
1336  */
1337 int fastcall __user_walk_fd(int dfd, const char __user *name, unsigned flags,
1338                             struct nameidata *nd)
1339 {
1340         char *tmp = getname(name);
1341         int err = PTR_ERR(tmp);
1342
1343         if (!IS_ERR(tmp)) {
1344                 err = do_path_lookup(dfd, tmp, flags, nd);
1345                 putname(tmp);
1346         }
1347         return err;
1348 }
1349
1350 int fastcall __user_walk(const char __user *name, unsigned flags, struct nameidata *nd)
1351 {
1352         return __user_walk_fd(AT_FDCWD, name, flags, nd);
1353 }
1354
1355 /*
1356  * It's inline, so penalty for filesystems that don't use sticky bit is
1357  * minimal.
1358  */
1359 static inline int check_sticky(struct inode *dir, struct inode *inode)
1360 {
1361         if (!(dir->i_mode & S_ISVTX))
1362                 return 0;
1363         if (inode->i_uid == current->fsuid)
1364                 return 0;
1365         if (dir->i_uid == current->fsuid)
1366                 return 0;
1367         return !capable(CAP_FOWNER);
1368 }
1369
1370 /*
1371  *      Check whether we can remove a link victim from directory dir, check
1372  *  whether the type of victim is right.
1373  *  1. We can't do it if dir is read-only (done in permission())
1374  *  2. We should have write and exec permissions on dir
1375  *  3. We can't remove anything from append-only dir
1376  *  4. We can't do anything with immutable dir (done in permission())
1377  *  5. If the sticky bit on dir is set we should either
1378  *      a. be owner of dir, or
1379  *      b. be owner of victim, or
1380  *      c. have CAP_FOWNER capability
1381  *  6. If the victim is append-only or immutable we can't do antyhing with
1382  *     links pointing to it.
1383  *  7. If we were asked to remove a directory and victim isn't one - ENOTDIR.
1384  *  8. If we were asked to remove a non-directory and victim isn't one - EISDIR.
1385  *  9. We can't remove a root or mountpoint.
1386  * 10. We don't allow removal of NFS sillyrenamed files; it's handled by
1387  *     nfs_async_unlink().
1388  */
1389 static int may_delete(struct inode *dir,struct dentry *victim,int isdir)
1390 {
1391         int error;
1392
1393         if (!victim->d_inode)
1394                 return -ENOENT;
1395
1396         BUG_ON(victim->d_parent->d_inode != dir);
1397         audit_inode_child(victim->d_name.name, victim->d_inode, dir);
1398
1399         error = permission(dir,MAY_WRITE | MAY_EXEC, NULL);
1400         if (error)
1401                 return error;
1402         if (IS_APPEND(dir))
1403                 return -EPERM;
1404         if (check_sticky(dir, victim->d_inode)||IS_APPEND(victim->d_inode)||
1405             IS_IMMUTABLE(victim->d_inode))
1406                 return -EPERM;
1407         if (isdir) {
1408                 if (!S_ISDIR(victim->d_inode->i_mode))
1409                         return -ENOTDIR;
1410                 if (IS_ROOT(victim))
1411                         return -EBUSY;
1412         } else if (S_ISDIR(victim->d_inode->i_mode))
1413                 return -EISDIR;
1414         if (IS_DEADDIR(dir))
1415                 return -ENOENT;
1416         if (victim->d_flags & DCACHE_NFSFS_RENAMED)
1417                 return -EBUSY;
1418         return 0;
1419 }
1420
1421 /*      Check whether we can create an object with dentry child in directory
1422  *  dir.
1423  *  1. We can't do it if child already exists (open has special treatment for
1424  *     this case, but since we are inlined it's OK)
1425  *  2. We can't do it if dir is read-only (done in permission())
1426  *  3. We should have write and exec permissions on dir
1427  *  4. We can't do it if dir is immutable (done in permission())
1428  */
1429 static inline int may_create(struct inode *dir, struct dentry *child,
1430                              struct nameidata *nd)
1431 {
1432         if (child->d_inode)
1433                 return -EEXIST;
1434         if (IS_DEADDIR(dir))
1435                 return -ENOENT;
1436         return permission(dir,MAY_WRITE | MAY_EXEC, nd);
1437 }
1438
1439 /* 
1440  * O_DIRECTORY translates into forcing a directory lookup.
1441  */
1442 static inline int lookup_flags(unsigned int f)
1443 {
1444         unsigned long retval = LOOKUP_FOLLOW;
1445
1446         if (f & O_NOFOLLOW)
1447                 retval &= ~LOOKUP_FOLLOW;
1448         
1449         if (f & O_DIRECTORY)
1450                 retval |= LOOKUP_DIRECTORY;
1451
1452         return retval;
1453 }
1454
1455 /*
1456  * p1 and p2 should be directories on the same fs.
1457  */
1458 struct dentry *lock_rename(struct dentry *p1, struct dentry *p2)
1459 {
1460         struct dentry *p;
1461
1462         if (p1 == p2) {
1463                 mutex_lock_nested(&p1->d_inode->i_mutex, I_MUTEX_PARENT);
1464                 return NULL;
1465         }
1466
1467         mutex_lock(&p1->d_inode->i_sb->s_vfs_rename_mutex);
1468
1469         for (p = p1; p->d_parent != p; p = p->d_parent) {
1470                 if (p->d_parent == p2) {
1471                         mutex_lock_nested(&p2->d_inode->i_mutex, I_MUTEX_PARENT);
1472                         mutex_lock_nested(&p1->d_inode->i_mutex, I_MUTEX_CHILD);
1473                         return p;
1474                 }
1475         }
1476
1477         for (p = p2; p->d_parent != p; p = p->d_parent) {
1478                 if (p->d_parent == p1) {
1479                         mutex_lock_nested(&p1->d_inode->i_mutex, I_MUTEX_PARENT);
1480                         mutex_lock_nested(&p2->d_inode->i_mutex, I_MUTEX_CHILD);
1481                         return p;
1482                 }
1483         }
1484
1485         mutex_lock_nested(&p1->d_inode->i_mutex, I_MUTEX_PARENT);
1486         mutex_lock_nested(&p2->d_inode->i_mutex, I_MUTEX_CHILD);
1487         return NULL;
1488 }
1489
1490 void unlock_rename(struct dentry *p1, struct dentry *p2)
1491 {
1492         mutex_unlock(&p1->d_inode->i_mutex);
1493         if (p1 != p2) {
1494                 mutex_unlock(&p2->d_inode->i_mutex);
1495                 mutex_unlock(&p1->d_inode->i_sb->s_vfs_rename_mutex);
1496         }
1497 }
1498
1499 int vfs_create(struct inode *dir, struct dentry *dentry, int mode,
1500                 struct nameidata *nd)
1501 {
1502         int error = may_create(dir, dentry, nd);
1503
1504         if (error)
1505                 return error;
1506
1507         if (!dir->i_op || !dir->i_op->create)
1508                 return -EACCES; /* shouldn't it be ENOSYS? */
1509         mode &= S_IALLUGO;
1510         mode |= S_IFREG;
1511         error = security_inode_create(dir, dentry, mode);
1512         if (error)
1513                 return error;
1514         DQUOT_INIT(dir);
1515         error = dir->i_op->create(dir, dentry, mode, nd);
1516         if (!error)
1517                 fsnotify_create(dir, dentry);
1518         return error;
1519 }
1520
1521 int may_open(struct nameidata *nd, int acc_mode, int flag)
1522 {
1523         struct dentry *dentry = nd->dentry;
1524         struct inode *inode = dentry->d_inode;
1525         int error;
1526
1527         if (!inode)
1528                 return -ENOENT;
1529
1530         if (S_ISLNK(inode->i_mode))
1531                 return -ELOOP;
1532         
1533         if (S_ISDIR(inode->i_mode) && (flag & FMODE_WRITE))
1534                 return -EISDIR;
1535
1536         error = vfs_permission(nd, acc_mode);
1537         if (error)
1538                 return error;
1539
1540         /*
1541          * FIFO's, sockets and device files are special: they don't
1542          * actually live on the filesystem itself, and as such you
1543          * can write to them even if the filesystem is read-only.
1544          */
1545         if (S_ISFIFO(inode->i_mode) || S_ISSOCK(inode->i_mode)) {
1546                 flag &= ~O_TRUNC;
1547         } else if (S_ISBLK(inode->i_mode) || S_ISCHR(inode->i_mode)) {
1548                 if (nd->mnt->mnt_flags & MNT_NODEV)
1549                         return -EACCES;
1550
1551                 flag &= ~O_TRUNC;
1552         } else if (IS_RDONLY(inode) && (flag & FMODE_WRITE))
1553                 return -EROFS;
1554         /*
1555          * An append-only file must be opened in append mode for writing.
1556          */
1557         if (IS_APPEND(inode)) {
1558                 if  ((flag & FMODE_WRITE) && !(flag & O_APPEND))
1559                         return -EPERM;
1560                 if (flag & O_TRUNC)
1561                         return -EPERM;
1562         }
1563
1564         /* O_NOATIME can only be set by the owner or superuser */
1565         if (flag & O_NOATIME)
1566                 if (current->fsuid != inode->i_uid && !capable(CAP_FOWNER))
1567                         return -EPERM;
1568
1569         /*
1570          * Ensure there are no outstanding leases on the file.
1571          */
1572         error = break_lease(inode, flag);
1573         if (error)
1574                 return error;
1575
1576         if (flag & O_TRUNC) {
1577                 error = get_write_access(inode);
1578                 if (error)
1579                         return error;
1580
1581                 /*
1582                  * Refuse to truncate files with mandatory locks held on them.
1583                  */
1584                 error = locks_verify_locked(inode);
1585                 if (!error) {
1586                         DQUOT_INIT(inode);
1587                         
1588                         error = do_truncate(dentry, 0, ATTR_MTIME|ATTR_CTIME, NULL);
1589                 }
1590                 put_write_access(inode);
1591                 if (error)
1592                         return error;
1593         } else
1594                 if (flag & FMODE_WRITE)
1595                         DQUOT_INIT(inode);
1596
1597         return 0;
1598 }
1599
1600 static int open_namei_create(struct nameidata *nd, struct path *path,
1601                                 int flag, int mode)
1602 {
1603         int error;
1604         struct dentry *dir = nd->dentry;
1605
1606         if (!IS_POSIXACL(dir->d_inode))
1607                 mode &= ~current->fs->umask;
1608         error = vfs_create(dir->d_inode, path->dentry, mode, nd);
1609         mutex_unlock(&dir->d_inode->i_mutex);
1610         dput(nd->dentry);
1611         nd->dentry = path->dentry;
1612         if (error)
1613                 return error;
1614         /* Don't check for write permission, don't truncate */
1615         return may_open(nd, 0, flag & ~O_TRUNC);
1616 }
1617
1618 /*
1619  *      open_namei()
1620  *
1621  * namei for open - this is in fact almost the whole open-routine.
1622  *
1623  * Note that the low bits of "flag" aren't the same as in the open
1624  * system call - they are 00 - no permissions needed
1625  *                        01 - read permission needed
1626  *                        10 - write permission needed
1627  *                        11 - read/write permissions needed
1628  * which is a lot more logical, and also allows the "no perm" needed
1629  * for symlinks (where the permissions are checked later).
1630  * SMP-safe
1631  */
1632 int open_namei(int dfd, const char *pathname, int flag,
1633                 int mode, struct nameidata *nd)
1634 {
1635         int acc_mode, error;
1636         struct path path;
1637         struct dentry *dir;
1638         int count = 0;
1639
1640         acc_mode = ACC_MODE(flag);
1641
1642         /* O_TRUNC implies we need access checks for write permissions */
1643         if (flag & O_TRUNC)
1644                 acc_mode |= MAY_WRITE;
1645
1646         /* Allow the LSM permission hook to distinguish append 
1647            access from general write access. */
1648         if (flag & O_APPEND)
1649                 acc_mode |= MAY_APPEND;
1650
1651         /*
1652          * The simplest case - just a plain lookup.
1653          */
1654         if (!(flag & O_CREAT)) {
1655                 error = path_lookup_open(dfd, pathname, lookup_flags(flag),
1656                                          nd, flag);
1657                 if (error)
1658                         return error;
1659                 goto ok;
1660         }
1661
1662         /*
1663          * Create - we need to know the parent.
1664          */
1665         error = path_lookup_create(dfd,pathname,LOOKUP_PARENT,nd,flag,mode);
1666         if (error)
1667                 return error;
1668
1669         /*
1670          * We have the parent and last component. First of all, check
1671          * that we are not asked to creat(2) an obvious directory - that
1672          * will not do.
1673          */
1674         error = -EISDIR;
1675         if (nd->last_type != LAST_NORM || nd->last.name[nd->last.len])
1676                 goto exit;
1677
1678         dir = nd->dentry;
1679         nd->flags &= ~LOOKUP_PARENT;
1680         mutex_lock(&dir->d_inode->i_mutex);
1681         path.dentry = lookup_hash(nd);
1682         path.mnt = nd->mnt;
1683
1684 do_last:
1685         error = PTR_ERR(path.dentry);
1686         if (IS_ERR(path.dentry)) {
1687                 mutex_unlock(&dir->d_inode->i_mutex);
1688                 goto exit;
1689         }
1690
1691         if (IS_ERR(nd->intent.open.file)) {
1692                 mutex_unlock(&dir->d_inode->i_mutex);
1693                 error = PTR_ERR(nd->intent.open.file);
1694                 goto exit_dput;
1695         }
1696
1697         /* Negative dentry, just create the file */
1698         if (!path.dentry->d_inode) {
1699                 error = open_namei_create(nd, &path, flag, mode);
1700                 if (error)
1701                         goto exit;
1702                 return 0;
1703         }
1704
1705         /*
1706          * It already exists.
1707          */
1708         mutex_unlock(&dir->d_inode->i_mutex);
1709         audit_inode_update(path.dentry->d_inode);
1710
1711         error = -EEXIST;
1712         if (flag & O_EXCL)
1713                 goto exit_dput;
1714
1715         if (__follow_mount(&path)) {
1716                 error = -ELOOP;
1717                 if (flag & O_NOFOLLOW)
1718                         goto exit_dput;
1719         }
1720
1721         error = -ENOENT;
1722         if (!path.dentry->d_inode)
1723                 goto exit_dput;
1724         if (path.dentry->d_inode->i_op && path.dentry->d_inode->i_op->follow_link)
1725                 goto do_link;
1726
1727         path_to_nameidata(&path, nd);
1728         error = -EISDIR;
1729         if (path.dentry->d_inode && S_ISDIR(path.dentry->d_inode->i_mode))
1730                 goto exit;
1731 ok:
1732         error = may_open(nd, acc_mode, flag);
1733         if (error)
1734                 goto exit;
1735         return 0;
1736
1737 exit_dput:
1738         dput_path(&path, nd);
1739 exit:
1740         if (!IS_ERR(nd->intent.open.file))
1741                 release_open_intent(nd);
1742         path_release(nd);
1743         return error;
1744
1745 do_link:
1746         error = -ELOOP;
1747         if (flag & O_NOFOLLOW)
1748                 goto exit_dput;
1749         /*
1750          * This is subtle. Instead of calling do_follow_link() we do the
1751          * thing by hands. The reason is that this way we have zero link_count
1752          * and path_walk() (called from ->follow_link) honoring LOOKUP_PARENT.
1753          * After that we have the parent and last component, i.e.
1754          * we are in the same situation as after the first path_walk().
1755          * Well, almost - if the last component is normal we get its copy
1756          * stored in nd->last.name and we will have to putname() it when we
1757          * are done. Procfs-like symlinks just set LAST_BIND.
1758          */
1759         nd->flags |= LOOKUP_PARENT;
1760         error = security_inode_follow_link(path.dentry, nd);
1761         if (error)
1762                 goto exit_dput;
1763         error = __do_follow_link(&path, nd);
1764         if (error) {
1765                 /* Does someone understand code flow here? Or it is only
1766                  * me so stupid? Anathema to whoever designed this non-sense
1767                  * with "intent.open".
1768                  */
1769                 release_open_intent(nd);
1770                 return error;
1771         }
1772         nd->flags &= ~LOOKUP_PARENT;
1773         if (nd->last_type == LAST_BIND)
1774                 goto ok;
1775         error = -EISDIR;
1776         if (nd->last_type != LAST_NORM)
1777                 goto exit;
1778         if (nd->last.name[nd->last.len]) {
1779                 __putname(nd->last.name);
1780                 goto exit;
1781         }
1782         error = -ELOOP;
1783         if (count++==32) {
1784                 __putname(nd->last.name);
1785                 goto exit;
1786         }
1787         dir = nd->dentry;
1788         mutex_lock(&dir->d_inode->i_mutex);
1789         path.dentry = lookup_hash(nd);
1790         path.mnt = nd->mnt;
1791         __putname(nd->last.name);
1792         goto do_last;
1793 }
1794
1795 /**
1796  * lookup_create - lookup a dentry, creating it if it doesn't exist
1797  * @nd: nameidata info
1798  * @is_dir: directory flag
1799  *
1800  * Simple function to lookup and return a dentry and create it
1801  * if it doesn't exist.  Is SMP-safe.
1802  *
1803  * Returns with nd->dentry->d_inode->i_mutex locked.
1804  */
1805 struct dentry *lookup_create(struct nameidata *nd, int is_dir)
1806 {
1807         struct dentry *dentry = ERR_PTR(-EEXIST);
1808
1809         mutex_lock_nested(&nd->dentry->d_inode->i_mutex, I_MUTEX_PARENT);
1810         /*
1811          * Yucky last component or no last component at all?
1812          * (foo/., foo/.., /////)
1813          */
1814         if (nd->last_type != LAST_NORM)
1815                 goto fail;
1816         nd->flags &= ~LOOKUP_PARENT;
1817         nd->flags |= LOOKUP_CREATE;
1818         nd->intent.open.flags = O_EXCL;
1819
1820         /*
1821          * Do the final lookup.
1822          */
1823         dentry = lookup_hash(nd);
1824         if (IS_ERR(dentry))
1825                 goto fail;
1826
1827         /*
1828          * Special case - lookup gave negative, but... we had foo/bar/
1829          * From the vfs_mknod() POV we just have a negative dentry -
1830          * all is fine. Let's be bastards - you had / on the end, you've
1831          * been asking for (non-existent) directory. -ENOENT for you.
1832          */
1833         if (!is_dir && nd->last.name[nd->last.len] && !dentry->d_inode)
1834                 goto enoent;
1835         return dentry;
1836 enoent:
1837         dput(dentry);
1838         dentry = ERR_PTR(-ENOENT);
1839 fail:
1840         return dentry;
1841 }
1842 EXPORT_SYMBOL_GPL(lookup_create);
1843
1844 int vfs_mknod(struct inode *dir, struct dentry *dentry, int mode, dev_t dev)
1845 {
1846         int error = may_create(dir, dentry, NULL);
1847
1848         if (error)
1849                 return error;
1850
1851         if ((S_ISCHR(mode) || S_ISBLK(mode)) && !capable(CAP_MKNOD))
1852                 return -EPERM;
1853
1854         if (!dir->i_op || !dir->i_op->mknod)
1855                 return -EPERM;
1856
1857         error = security_inode_mknod(dir, dentry, mode, dev);
1858         if (error)
1859                 return error;
1860
1861         DQUOT_INIT(dir);
1862         error = dir->i_op->mknod(dir, dentry, mode, dev);
1863         if (!error)
1864                 fsnotify_create(dir, dentry);
1865         return error;
1866 }
1867
1868 asmlinkage long sys_mknodat(int dfd, const char __user *filename, int mode,
1869                                 unsigned dev)
1870 {
1871         int error = 0;
1872         char * tmp;
1873         struct dentry * dentry;
1874         struct nameidata nd;
1875
1876         if (S_ISDIR(mode))
1877                 return -EPERM;
1878         tmp = getname(filename);
1879         if (IS_ERR(tmp))
1880                 return PTR_ERR(tmp);
1881
1882         error = do_path_lookup(dfd, tmp, LOOKUP_PARENT, &nd);
1883         if (error)
1884                 goto out;
1885         dentry = lookup_create(&nd, 0);
1886         error = PTR_ERR(dentry);
1887
1888         if (!IS_POSIXACL(nd.dentry->d_inode))
1889                 mode &= ~current->fs->umask;
1890         if (!IS_ERR(dentry)) {
1891                 switch (mode & S_IFMT) {
1892                 case 0: case S_IFREG:
1893                         error = vfs_create(nd.dentry->d_inode,dentry,mode,&nd);
1894                         break;
1895                 case S_IFCHR: case S_IFBLK:
1896                         error = vfs_mknod(nd.dentry->d_inode,dentry,mode,
1897                                         new_decode_dev(dev));
1898                         break;
1899                 case S_IFIFO: case S_IFSOCK:
1900                         error = vfs_mknod(nd.dentry->d_inode,dentry,mode,0);
1901                         break;
1902                 case S_IFDIR:
1903                         error = -EPERM;
1904                         break;
1905                 default:
1906                         error = -EINVAL;
1907                 }
1908                 dput(dentry);
1909         }
1910         mutex_unlock(&nd.dentry->d_inode->i_mutex);
1911         path_release(&nd);
1912 out:
1913         putname(tmp);
1914
1915         return error;
1916 }
1917
1918 asmlinkage long sys_mknod(const char __user *filename, int mode, unsigned dev)
1919 {
1920         return sys_mknodat(AT_FDCWD, filename, mode, dev);
1921 }
1922
1923 int vfs_mkdir(struct inode *dir, struct dentry *dentry, int mode)
1924 {
1925         int error = may_create(dir, dentry, NULL);
1926
1927         if (error)
1928                 return error;
1929
1930         if (!dir->i_op || !dir->i_op->mkdir)
1931                 return -EPERM;
1932
1933         mode &= (S_IRWXUGO|S_ISVTX);
1934         error = security_inode_mkdir(dir, dentry, mode);
1935         if (error)
1936                 return error;
1937
1938         DQUOT_INIT(dir);
1939         error = dir->i_op->mkdir(dir, dentry, mode);
1940         if (!error)
1941                 fsnotify_mkdir(dir, dentry);
1942         return error;
1943 }
1944
1945 asmlinkage long sys_mkdirat(int dfd, const char __user *pathname, int mode)
1946 {
1947         int error = 0;
1948         char * tmp;
1949         struct dentry *dentry;
1950         struct nameidata nd;
1951
1952         tmp = getname(pathname);
1953         error = PTR_ERR(tmp);
1954         if (IS_ERR(tmp))
1955                 goto out_err;
1956
1957         error = do_path_lookup(dfd, tmp, LOOKUP_PARENT, &nd);
1958         if (error)
1959                 goto out;
1960         dentry = lookup_create(&nd, 1);
1961         error = PTR_ERR(dentry);
1962         if (IS_ERR(dentry))
1963                 goto out_unlock;
1964
1965         if (!IS_POSIXACL(nd.dentry->d_inode))
1966                 mode &= ~current->fs->umask;
1967         error = vfs_mkdir(nd.dentry->d_inode, dentry, mode);
1968         dput(dentry);
1969 out_unlock:
1970         mutex_unlock(&nd.dentry->d_inode->i_mutex);
1971         path_release(&nd);
1972 out:
1973         putname(tmp);
1974 out_err:
1975         return error;
1976 }
1977
1978 asmlinkage long sys_mkdir(const char __user *pathname, int mode)
1979 {
1980         return sys_mkdirat(AT_FDCWD, pathname, mode);
1981 }
1982
1983 /*
1984  * We try to drop the dentry early: we should have
1985  * a usage count of 2 if we're the only user of this
1986  * dentry, and if that is true (possibly after pruning
1987  * the dcache), then we drop the dentry now.
1988  *
1989  * A low-level filesystem can, if it choses, legally
1990  * do a
1991  *
1992  *      if (!d_unhashed(dentry))
1993  *              return -EBUSY;
1994  *
1995  * if it cannot handle the case of removing a directory
1996  * that is still in use by something else..
1997  */
1998 void dentry_unhash(struct dentry *dentry)
1999 {
2000         dget(dentry);
2001         shrink_dcache_parent(dentry);
2002         spin_lock(&dcache_lock);
2003         spin_lock(&dentry->d_lock);
2004         if (atomic_read(&dentry->d_count) == 2)
2005                 __d_drop(dentry);
2006         spin_unlock(&dentry->d_lock);
2007         spin_unlock(&dcache_lock);
2008 }
2009
2010 int vfs_rmdir(struct inode *dir, struct dentry *dentry)
2011 {
2012         int error = may_delete(dir, dentry, 1);
2013
2014         if (error)
2015                 return error;
2016
2017         if (!dir->i_op || !dir->i_op->rmdir)
2018                 return -EPERM;
2019
2020         DQUOT_INIT(dir);
2021
2022         mutex_lock(&dentry->d_inode->i_mutex);
2023         dentry_unhash(dentry);
2024         if (d_mountpoint(dentry))
2025                 error = -EBUSY;
2026         else {
2027                 error = security_inode_rmdir(dir, dentry);
2028                 if (!error) {
2029                         error = dir->i_op->rmdir(dir, dentry);
2030                         if (!error)
2031                                 dentry->d_inode->i_flags |= S_DEAD;
2032                 }
2033         }
2034         mutex_unlock(&dentry->d_inode->i_mutex);
2035         if (!error) {
2036                 d_delete(dentry);
2037         }
2038         dput(dentry);
2039
2040         return error;
2041 }
2042
2043 static long do_rmdir(int dfd, const char __user *pathname)
2044 {
2045         int error = 0;
2046         char * name;
2047         struct dentry *dentry;
2048         struct nameidata nd;
2049
2050         name = getname(pathname);
2051         if(IS_ERR(name))
2052                 return PTR_ERR(name);
2053
2054         error = do_path_lookup(dfd, name, LOOKUP_PARENT, &nd);
2055         if (error)
2056                 goto exit;
2057
2058         switch(nd.last_type) {
2059                 case LAST_DOTDOT:
2060                         error = -ENOTEMPTY;
2061                         goto exit1;
2062                 case LAST_DOT:
2063                         error = -EINVAL;
2064                         goto exit1;
2065                 case LAST_ROOT:
2066                         error = -EBUSY;
2067                         goto exit1;
2068         }
2069         mutex_lock_nested(&nd.dentry->d_inode->i_mutex, I_MUTEX_PARENT);
2070         dentry = lookup_hash(&nd);
2071         error = PTR_ERR(dentry);
2072         if (IS_ERR(dentry))
2073                 goto exit2;
2074         error = vfs_rmdir(nd.dentry->d_inode, dentry);
2075         dput(dentry);
2076 exit2:
2077         mutex_unlock(&nd.dentry->d_inode->i_mutex);
2078 exit1:
2079         path_release(&nd);
2080 exit:
2081         putname(name);
2082         return error;
2083 }
2084
2085 asmlinkage long sys_rmdir(const char __user *pathname)
2086 {
2087         return do_rmdir(AT_FDCWD, pathname);
2088 }
2089
2090 int vfs_unlink(struct inode *dir, struct dentry *dentry)
2091 {
2092         int error = may_delete(dir, dentry, 0);
2093
2094         if (error)
2095                 return error;
2096
2097         if (!dir->i_op || !dir->i_op->unlink)
2098                 return -EPERM;
2099
2100         DQUOT_INIT(dir);
2101
2102         mutex_lock(&dentry->d_inode->i_mutex);
2103         if (d_mountpoint(dentry))
2104                 error = -EBUSY;
2105         else {
2106                 error = security_inode_unlink(dir, dentry);
2107                 if (!error)
2108                         error = dir->i_op->unlink(dir, dentry);
2109         }
2110         mutex_unlock(&dentry->d_inode->i_mutex);
2111
2112         /* We don't d_delete() NFS sillyrenamed files--they still exist. */
2113         if (!error && !(dentry->d_flags & DCACHE_NFSFS_RENAMED)) {
2114                 d_delete(dentry);
2115         }
2116
2117         return error;
2118 }
2119
2120 /*
2121  * Make sure that the actual truncation of the file will occur outside its
2122  * directory's i_mutex.  Truncate can take a long time if there is a lot of
2123  * writeout happening, and we don't want to prevent access to the directory
2124  * while waiting on the I/O.
2125  */
2126 static long do_unlinkat(int dfd, const char __user *pathname)
2127 {
2128         int error = 0;
2129         char * name;
2130         struct dentry *dentry;
2131         struct nameidata nd;
2132         struct inode *inode = NULL;
2133
2134         name = getname(pathname);
2135         if(IS_ERR(name))
2136                 return PTR_ERR(name);
2137
2138         error = do_path_lookup(dfd, name, LOOKUP_PARENT, &nd);
2139         if (error)
2140                 goto exit;
2141         error = -EISDIR;
2142         if (nd.last_type != LAST_NORM)
2143                 goto exit1;
2144         mutex_lock_nested(&nd.dentry->d_inode->i_mutex, I_MUTEX_PARENT);
2145         dentry = lookup_hash(&nd);
2146         error = PTR_ERR(dentry);
2147         if (!IS_ERR(dentry)) {
2148                 /* Why not before? Because we want correct error value */
2149                 if (nd.last.name[nd.last.len])
2150                         goto slashes;
2151                 inode = dentry->d_inode;
2152                 if (inode)
2153                         atomic_inc(&inode->i_count);
2154                 error = vfs_unlink(nd.dentry->d_inode, dentry);
2155         exit2:
2156                 dput(dentry);
2157         }
2158         mutex_unlock(&nd.dentry->d_inode->i_mutex);
2159         if (inode)
2160                 iput(inode);    /* truncate the inode here */
2161 exit1:
2162         path_release(&nd);
2163 exit:
2164         putname(name);
2165         return error;
2166
2167 slashes:
2168         error = !dentry->d_inode ? -ENOENT :
2169                 S_ISDIR(dentry->d_inode->i_mode) ? -EISDIR : -ENOTDIR;
2170         goto exit2;
2171 }
2172
2173 asmlinkage long sys_unlinkat(int dfd, const char __user *pathname, int flag)
2174 {
2175         if ((flag & ~AT_REMOVEDIR) != 0)
2176                 return -EINVAL;
2177
2178         if (flag & AT_REMOVEDIR)
2179                 return do_rmdir(dfd, pathname);
2180
2181         return do_unlinkat(dfd, pathname);
2182 }
2183
2184 asmlinkage long sys_unlink(const char __user *pathname)
2185 {
2186         return do_unlinkat(AT_FDCWD, pathname);
2187 }
2188
2189 int vfs_symlink(struct inode *dir, struct dentry *dentry, const char *oldname, int mode)
2190 {
2191         int error = may_create(dir, dentry, NULL);
2192
2193         if (error)
2194                 return error;
2195
2196         if (!dir->i_op || !dir->i_op->symlink)
2197                 return -EPERM;
2198
2199         error = security_inode_symlink(dir, dentry, oldname);
2200         if (error)
2201                 return error;
2202
2203         DQUOT_INIT(dir);
2204         error = dir->i_op->symlink(dir, dentry, oldname);
2205         if (!error)
2206                 fsnotify_create(dir, dentry);
2207         return error;
2208 }
2209
2210 asmlinkage long sys_symlinkat(const char __user *oldname,
2211                               int newdfd, const char __user *newname)
2212 {
2213         int error = 0;
2214         char * from;
2215         char * to;
2216         struct dentry *dentry;
2217         struct nameidata nd;
2218
2219         from = getname(oldname);
2220         if(IS_ERR(from))
2221                 return PTR_ERR(from);
2222         to = getname(newname);
2223         error = PTR_ERR(to);
2224         if (IS_ERR(to))
2225                 goto out_putname;
2226
2227         error = do_path_lookup(newdfd, to, LOOKUP_PARENT, &nd);
2228         if (error)
2229                 goto out;
2230         dentry = lookup_create(&nd, 0);
2231         error = PTR_ERR(dentry);
2232         if (IS_ERR(dentry))
2233                 goto out_unlock;
2234
2235         error = vfs_symlink(nd.dentry->d_inode, dentry, from, S_IALLUGO);
2236         dput(dentry);
2237 out_unlock:
2238         mutex_unlock(&nd.dentry->d_inode->i_mutex);
2239         path_release(&nd);
2240 out:
2241         putname(to);
2242 out_putname:
2243         putname(from);
2244         return error;
2245 }
2246
2247 asmlinkage long sys_symlink(const char __user *oldname, const char __user *newname)
2248 {
2249         return sys_symlinkat(oldname, AT_FDCWD, newname);
2250 }
2251
2252 int vfs_link(struct dentry *old_dentry, struct inode *dir, struct dentry *new_dentry)
2253 {
2254         struct inode *inode = old_dentry->d_inode;
2255         int error;
2256
2257         if (!inode)
2258                 return -ENOENT;
2259
2260         error = may_create(dir, new_dentry, NULL);
2261         if (error)
2262                 return error;
2263
2264         if (dir->i_sb != inode->i_sb)
2265                 return -EXDEV;
2266
2267         /*
2268          * A link to an append-only or immutable file cannot be created.
2269          */
2270         if (IS_APPEND(inode) || IS_IMMUTABLE(inode))
2271                 return -EPERM;
2272         if (!dir->i_op || !dir->i_op->link)
2273                 return -EPERM;
2274         if (S_ISDIR(old_dentry->d_inode->i_mode))
2275                 return -EPERM;
2276
2277         error = security_inode_link(old_dentry, dir, new_dentry);
2278         if (error)
2279                 return error;
2280
2281         mutex_lock(&old_dentry->d_inode->i_mutex);
2282         DQUOT_INIT(dir);
2283         error = dir->i_op->link(old_dentry, dir, new_dentry);
2284         mutex_unlock(&old_dentry->d_inode->i_mutex);
2285         if (!error)
2286                 fsnotify_create(dir, new_dentry);
2287         return error;
2288 }
2289
2290 /*
2291  * Hardlinks are often used in delicate situations.  We avoid
2292  * security-related surprises by not following symlinks on the
2293  * newname.  --KAB
2294  *
2295  * We don't follow them on the oldname either to be compatible
2296  * with linux 2.0, and to avoid hard-linking to directories
2297  * and other special files.  --ADM
2298  */
2299 asmlinkage long sys_linkat(int olddfd, const char __user *oldname,
2300                            int newdfd, const char __user *newname,
2301                            int flags)
2302 {
2303         struct dentry *new_dentry;
2304         struct nameidata nd, old_nd;
2305         int error;
2306         char * to;
2307
2308         if ((flags & ~AT_SYMLINK_FOLLOW) != 0)
2309                 return -EINVAL;
2310
2311         to = getname(newname);
2312         if (IS_ERR(to))
2313                 return PTR_ERR(to);
2314
2315         error = __user_walk_fd(olddfd, oldname,
2316                                flags & AT_SYMLINK_FOLLOW ? LOOKUP_FOLLOW : 0,
2317                                &old_nd);
2318         if (error)
2319                 goto exit;
2320         error = do_path_lookup(newdfd, to, LOOKUP_PARENT, &nd);
2321         if (error)
2322                 goto out;
2323         error = -EXDEV;
2324         if (old_nd.mnt != nd.mnt)
2325                 goto out_release;
2326         new_dentry = lookup_create(&nd, 0);
2327         error = PTR_ERR(new_dentry);
2328         if (IS_ERR(new_dentry))
2329                 goto out_unlock;
2330         error = vfs_link(old_nd.dentry, nd.dentry->d_inode, new_dentry);
2331         dput(new_dentry);
2332 out_unlock:
2333         mutex_unlock(&nd.dentry->d_inode->i_mutex);
2334 out_release:
2335         path_release(&nd);
2336 out:
2337         path_release(&old_nd);
2338 exit:
2339         putname(to);
2340
2341         return error;
2342 }
2343
2344 asmlinkage long sys_link(const char __user *oldname, const char __user *newname)
2345 {
2346         return sys_linkat(AT_FDCWD, oldname, AT_FDCWD, newname, 0);
2347 }
2348
2349 /*
2350  * The worst of all namespace operations - renaming directory. "Perverted"
2351  * doesn't even start to describe it. Somebody in UCB had a heck of a trip...
2352  * Problems:
2353  *      a) we can get into loop creation. Check is done in is_subdir().
2354  *      b) race potential - two innocent renames can create a loop together.
2355  *         That's where 4.4 screws up. Current fix: serialization on
2356  *         sb->s_vfs_rename_mutex. We might be more accurate, but that's another
2357  *         story.
2358  *      c) we have to lock _three_ objects - parents and victim (if it exists).
2359  *         And that - after we got ->i_mutex on parents (until then we don't know
2360  *         whether the target exists).  Solution: try to be smart with locking
2361  *         order for inodes.  We rely on the fact that tree topology may change
2362  *         only under ->s_vfs_rename_mutex _and_ that parent of the object we
2363  *         move will be locked.  Thus we can rank directories by the tree
2364  *         (ancestors first) and rank all non-directories after them.
2365  *         That works since everybody except rename does "lock parent, lookup,
2366  *         lock child" and rename is under ->s_vfs_rename_mutex.
2367  *         HOWEVER, it relies on the assumption that any object with ->lookup()
2368  *         has no more than 1 dentry.  If "hybrid" objects will ever appear,
2369  *         we'd better make sure that there's no link(2) for them.
2370  *      d) some filesystems don't support opened-but-unlinked directories,
2371  *         either because of layout or because they are not ready to deal with
2372  *         all cases correctly. The latter will be fixed (taking this sort of
2373  *         stuff into VFS), but the former is not going away. Solution: the same
2374  *         trick as in rmdir().
2375  *      e) conversion from fhandle to dentry may come in the wrong moment - when
2376  *         we are removing the target. Solution: we will have to grab ->i_mutex
2377  *         in the fhandle_to_dentry code. [FIXME - current nfsfh.c relies on
2378  *         ->i_mutex on parents, which works but leads to some truely excessive
2379  *         locking].
2380  */
2381 static int vfs_rename_dir(struct inode *old_dir, struct dentry *old_dentry,
2382                           struct inode *new_dir, struct dentry *new_dentry)
2383 {
2384         int error = 0;
2385         struct inode *target;
2386
2387         /*
2388          * If we are going to change the parent - check write permissions,
2389          * we'll need to flip '..'.
2390          */
2391         if (new_dir != old_dir) {
2392                 error = permission(old_dentry->d_inode, MAY_WRITE, NULL);
2393                 if (error)
2394                         return error;
2395         }
2396
2397         error = security_inode_rename(old_dir, old_dentry, new_dir, new_dentry);
2398         if (error)
2399                 return error;
2400
2401         target = new_dentry->d_inode;
2402         if (target) {
2403                 mutex_lock(&target->i_mutex);
2404                 dentry_unhash(new_dentry);
2405         }
2406         if (d_mountpoint(old_dentry)||d_mountpoint(new_dentry))
2407                 error = -EBUSY;
2408         else 
2409                 error = old_dir->i_op->rename(old_dir, old_dentry, new_dir, new_dentry);
2410         if (target) {
2411                 if (!error)
2412                         target->i_flags |= S_DEAD;
2413                 mutex_unlock(&target->i_mutex);
2414                 if (d_unhashed(new_dentry))
2415                         d_rehash(new_dentry);
2416                 dput(new_dentry);
2417         }
2418         if (!error)
2419                 if (!(old_dir->i_sb->s_type->fs_flags & FS_RENAME_DOES_D_MOVE))
2420                         d_move(old_dentry,new_dentry);
2421         return error;
2422 }
2423
2424 static int vfs_rename_other(struct inode *old_dir, struct dentry *old_dentry,
2425                             struct inode *new_dir, struct dentry *new_dentry)
2426 {
2427         struct inode *target;
2428         int error;
2429
2430         error = security_inode_rename(old_dir, old_dentry, new_dir, new_dentry);
2431         if (error)
2432                 return error;
2433
2434         dget(new_dentry);
2435         target = new_dentry->d_inode;
2436         if (target)
2437                 mutex_lock(&target->i_mutex);
2438         if (d_mountpoint(old_dentry)||d_mountpoint(new_dentry))
2439                 error = -EBUSY;
2440         else
2441                 error = old_dir->i_op->rename(old_dir, old_dentry, new_dir, new_dentry);
2442         if (!error) {
2443                 if (!(old_dir->i_sb->s_type->fs_flags & FS_RENAME_DOES_D_MOVE))
2444                         d_move(old_dentry, new_dentry);
2445         }
2446         if (target)
2447                 mutex_unlock(&target->i_mutex);
2448         dput(new_dentry);
2449         return error;
2450 }
2451
2452 int vfs_rename(struct inode *old_dir, struct dentry *old_dentry,
2453                struct inode *new_dir, struct dentry *new_dentry)
2454 {
2455         int error;
2456         int is_dir = S_ISDIR(old_dentry->d_inode->i_mode);
2457         const char *old_name;
2458
2459         if (old_dentry->d_inode == new_dentry->d_inode)
2460                 return 0;
2461  
2462         error = may_delete(old_dir, old_dentry, is_dir);
2463         if (error)
2464                 return error;
2465
2466         if (!new_dentry->d_inode)
2467                 error = may_create(new_dir, new_dentry, NULL);
2468         else
2469                 error = may_delete(new_dir, new_dentry, is_dir);
2470         if (error)
2471                 return error;
2472
2473         if (!old_dir->i_op || !old_dir->i_op->rename)
2474                 return -EPERM;
2475
2476         DQUOT_INIT(old_dir);
2477         DQUOT_INIT(new_dir);
2478
2479         old_name = fsnotify_oldname_init(old_dentry->d_name.name);
2480
2481         if (is_dir)
2482                 error = vfs_rename_dir(old_dir,old_dentry,new_dir,new_dentry);
2483         else
2484                 error = vfs_rename_other(old_dir,old_dentry,new_dir,new_dentry);
2485         if (!error) {
2486                 const char *new_name = old_dentry->d_name.name;
2487                 fsnotify_move(old_dir, new_dir, old_name, new_name, is_dir,
2488                               new_dentry->d_inode, old_dentry->d_inode);
2489         }
2490         fsnotify_oldname_free(old_name);
2491
2492         return error;
2493 }
2494
2495 static int do_rename(int olddfd, const char *oldname,
2496                         int newdfd, const char *newname)
2497 {
2498         int error = 0;
2499         struct dentry * old_dir, * new_dir;
2500         struct dentry * old_dentry, *new_dentry;
2501         struct dentry * trap;
2502         struct nameidata oldnd, newnd;
2503
2504         error = do_path_lookup(olddfd, oldname, LOOKUP_PARENT, &oldnd);
2505         if (error)
2506                 goto exit;
2507
2508         error = do_path_lookup(newdfd, newname, LOOKUP_PARENT, &newnd);
2509         if (error)
2510                 goto exit1;
2511
2512         error = -EXDEV;
2513         if (oldnd.mnt != newnd.mnt)
2514                 goto exit2;
2515
2516         old_dir = oldnd.dentry;
2517         error = -EBUSY;
2518         if (oldnd.last_type != LAST_NORM)
2519                 goto exit2;
2520
2521         new_dir = newnd.dentry;
2522         if (newnd.last_type != LAST_NORM)
2523                 goto exit2;
2524
2525         trap = lock_rename(new_dir, old_dir);
2526
2527         old_dentry = lookup_hash(&oldnd);
2528         error = PTR_ERR(old_dentry);
2529         if (IS_ERR(old_dentry))
2530                 goto exit3;
2531         /* source must exist */
2532         error = -ENOENT;
2533         if (!old_dentry->d_inode)
2534                 goto exit4;
2535         /* unless the source is a directory trailing slashes give -ENOTDIR */
2536         if (!S_ISDIR(old_dentry->d_inode->i_mode)) {
2537                 error = -ENOTDIR;
2538                 if (oldnd.last.name[oldnd.last.len])
2539                         goto exit4;
2540                 if (newnd.last.name[newnd.last.len])
2541                         goto exit4;
2542         }
2543         /* source should not be ancestor of target */
2544         error = -EINVAL;
2545         if (old_dentry == trap)
2546                 goto exit4;
2547         new_dentry = lookup_hash(&newnd);
2548         error = PTR_ERR(new_dentry);
2549         if (IS_ERR(new_dentry))
2550                 goto exit4;
2551         /* target should not be an ancestor of source */
2552         error = -ENOTEMPTY;
2553         if (new_dentry == trap)
2554                 goto exit5;
2555
2556         error = vfs_rename(old_dir->d_inode, old_dentry,
2557                                    new_dir->d_inode, new_dentry);
2558 exit5:
2559         dput(new_dentry);
2560 exit4:
2561         dput(old_dentry);
2562 exit3:
2563         unlock_rename(new_dir, old_dir);
2564 exit2:
2565         path_release(&newnd);
2566 exit1:
2567         path_release(&oldnd);
2568 exit:
2569         return error;
2570 }
2571
2572 asmlinkage long sys_renameat(int olddfd, const char __user *oldname,
2573                              int newdfd, const char __user *newname)
2574 {
2575         int error;
2576         char * from;
2577         char * to;
2578
2579         from = getname(oldname);
2580         if(IS_ERR(from))
2581                 return PTR_ERR(from);
2582         to = getname(newname);
2583         error = PTR_ERR(to);
2584         if (!IS_ERR(to)) {
2585                 error = do_rename(olddfd, from, newdfd, to);
2586                 putname(to);
2587         }
2588         putname(from);
2589         return error;
2590 }
2591
2592 asmlinkage long sys_rename(const char __user *oldname, const char __user *newname)
2593 {
2594         return sys_renameat(AT_FDCWD, oldname, AT_FDCWD, newname);
2595 }
2596
2597 int vfs_readlink(struct dentry *dentry, char __user *buffer, int buflen, const char *link)
2598 {
2599         int len;
2600
2601         len = PTR_ERR(link);
2602         if (IS_ERR(link))
2603                 goto out;
2604
2605         len = strlen(link);
2606         if (len > (unsigned) buflen)
2607                 len = buflen;
2608         if (copy_to_user(buffer, link, len))
2609                 len = -EFAULT;
2610 out:
2611         return len;
2612 }
2613
2614 /*
2615  * A helper for ->readlink().  This should be used *ONLY* for symlinks that
2616  * have ->follow_link() touching nd only in nd_set_link().  Using (or not
2617  * using) it for any given inode is up to filesystem.
2618  */
2619 int generic_readlink(struct dentry *dentry, char __user *buffer, int buflen)
2620 {
2621         struct nameidata nd;
2622         void *cookie;
2623
2624         nd.depth = 0;
2625         cookie = dentry->d_inode->i_op->follow_link(dentry, &nd);
2626         if (!IS_ERR(cookie)) {
2627                 int res = vfs_readlink(dentry, buffer, buflen, nd_get_link(&nd));
2628                 if (dentry->d_inode->i_op->put_link)
2629                         dentry->d_inode->i_op->put_link(dentry, &nd, cookie);
2630                 cookie = ERR_PTR(res);
2631         }
2632         return PTR_ERR(cookie);
2633 }
2634
2635 int vfs_follow_link(struct nameidata *nd, const char *link)
2636 {
2637         return __vfs_follow_link(nd, link);
2638 }
2639
2640 /* get the link contents into pagecache */
2641 static char *page_getlink(struct dentry * dentry, struct page **ppage)
2642 {
2643         struct page * page;
2644         struct address_space *mapping = dentry->d_inode->i_mapping;
2645         page = read_mapping_page(mapping, 0, NULL);
2646         if (IS_ERR(page))
2647                 goto sync_fail;
2648         wait_on_page_locked(page);
2649         if (!PageUptodate(page))
2650                 goto async_fail;
2651         *ppage = page;
2652         return kmap(page);
2653
2654 async_fail:
2655         page_cache_release(page);
2656         return ERR_PTR(-EIO);
2657
2658 sync_fail:
2659         return (char*)page;
2660 }
2661
2662 int page_readlink(struct dentry *dentry, char __user *buffer, int buflen)
2663 {
2664         struct page *page = NULL;
2665         char *s = page_getlink(dentry, &page);
2666         int res = vfs_readlink(dentry,buffer,buflen,s);
2667         if (page) {
2668                 kunmap(page);
2669                 page_cache_release(page);
2670         }
2671         return res;
2672 }
2673
2674 void *page_follow_link_light(struct dentry *dentry, struct nameidata *nd)
2675 {
2676         struct page *page = NULL;
2677         nd_set_link(nd, page_getlink(dentry, &page));
2678         return page;
2679 }
2680
2681 void page_put_link(struct dentry *dentry, struct nameidata *nd, void *cookie)
2682 {
2683         struct page *page = cookie;
2684
2685         if (page) {
2686                 kunmap(page);
2687                 page_cache_release(page);
2688         }
2689 }
2690
2691 int __page_symlink(struct inode *inode, const char *symname, int len,
2692                 gfp_t gfp_mask)
2693 {
2694         struct address_space *mapping = inode->i_mapping;
2695         struct page *page;
2696         int err = -ENOMEM;
2697         char *kaddr;
2698
2699 retry:
2700         page = find_or_create_page(mapping, 0, gfp_mask);
2701         if (!page)
2702                 goto fail;
2703         err = mapping->a_ops->prepare_write(NULL, page, 0, len-1);
2704         if (err == AOP_TRUNCATED_PAGE) {
2705                 page_cache_release(page);
2706                 goto retry;
2707         }
2708         if (err)
2709                 goto fail_map;
2710         kaddr = kmap_atomic(page, KM_USER0);
2711         memcpy(kaddr, symname, len-1);
2712         kunmap_atomic(kaddr, KM_USER0);
2713         err = mapping->a_ops->commit_write(NULL, page, 0, len-1);
2714         if (err == AOP_TRUNCATED_PAGE) {
2715                 page_cache_release(page);
2716                 goto retry;
2717         }
2718         if (err)
2719                 goto fail_map;
2720         /*
2721          * Notice that we are _not_ going to block here - end of page is
2722          * unmapped, so this will only try to map the rest of page, see
2723          * that it is unmapped (typically even will not look into inode -
2724          * ->i_size will be enough for everything) and zero it out.
2725          * OTOH it's obviously correct and should make the page up-to-date.
2726          */
2727         if (!PageUptodate(page)) {
2728                 err = mapping->a_ops->readpage(NULL, page);
2729                 if (err != AOP_TRUNCATED_PAGE)
2730                         wait_on_page_locked(page);
2731         } else {
2732                 unlock_page(page);
2733         }
2734         page_cache_release(page);
2735         if (err < 0)
2736                 goto fail;
2737         mark_inode_dirty(inode);
2738         return 0;
2739 fail_map:
2740         unlock_page(page);
2741         page_cache_release(page);
2742 fail:
2743         return err;
2744 }
2745
2746 int page_symlink(struct inode *inode, const char *symname, int len)
2747 {
2748         return __page_symlink(inode, symname, len,
2749                         mapping_gfp_mask(inode->i_mapping));
2750 }
2751
2752 struct inode_operations page_symlink_inode_operations = {
2753         .readlink       = generic_readlink,
2754         .follow_link    = page_follow_link_light,
2755         .put_link       = page_put_link,
2756 };
2757
2758 EXPORT_SYMBOL(__user_walk);
2759 EXPORT_SYMBOL(__user_walk_fd);
2760 EXPORT_SYMBOL(follow_down);
2761 EXPORT_SYMBOL(follow_up);
2762 EXPORT_SYMBOL(get_write_access); /* binfmt_aout */
2763 EXPORT_SYMBOL(getname);
2764 EXPORT_SYMBOL(lock_rename);
2765 EXPORT_SYMBOL(lookup_one_len);
2766 EXPORT_SYMBOL(page_follow_link_light);
2767 EXPORT_SYMBOL(page_put_link);
2768 EXPORT_SYMBOL(page_readlink);
2769 EXPORT_SYMBOL(__page_symlink);
2770 EXPORT_SYMBOL(page_symlink);
2771 EXPORT_SYMBOL(page_symlink_inode_operations);
2772 EXPORT_SYMBOL(path_lookup);
2773 EXPORT_SYMBOL(path_release);
2774 EXPORT_SYMBOL(path_walk);
2775 EXPORT_SYMBOL(permission);
2776 EXPORT_SYMBOL(vfs_permission);
2777 EXPORT_SYMBOL(file_permission);
2778 EXPORT_SYMBOL(unlock_rename);
2779 EXPORT_SYMBOL(vfs_create);
2780 EXPORT_SYMBOL(vfs_follow_link);
2781 EXPORT_SYMBOL(vfs_link);
2782 EXPORT_SYMBOL(vfs_mkdir);
2783 EXPORT_SYMBOL(vfs_mknod);
2784 EXPORT_SYMBOL(generic_permission);
2785 EXPORT_SYMBOL(vfs_readlink);
2786 EXPORT_SYMBOL(vfs_rename);
2787 EXPORT_SYMBOL(vfs_rmdir);
2788 EXPORT_SYMBOL(vfs_symlink);
2789 EXPORT_SYMBOL(vfs_unlink);
2790 EXPORT_SYMBOL(dentry_unhash);
2791 EXPORT_SYMBOL(generic_readlink);