2  *  linux/fs/read_write.c
 
   4  *  Copyright (C) 1991, 1992  Linus Torvalds
 
   7 #include <linux/slab.h> 
 
   8 #include <linux/stat.h>
 
   9 #include <linux/fcntl.h>
 
  10 #include <linux/file.h>
 
  11 #include <linux/uio.h>
 
  12 #include <linux/smp_lock.h>
 
  13 #include <linux/fsnotify.h>
 
  14 #include <linux/security.h>
 
  15 #include <linux/module.h>
 
  16 #include <linux/syscalls.h>
 
  17 #include <linux/pagemap.h>
 
  18 #include <linux/splice.h>
 
  19 #include "read_write.h"
 
  21 #include <asm/uaccess.h>
 
  22 #include <asm/unistd.h>
 
  24 const struct file_operations generic_ro_fops = {
 
  25         .llseek         = generic_file_llseek,
 
  27         .aio_read       = generic_file_aio_read,
 
  28         .mmap           = generic_file_readonly_mmap,
 
  29         .splice_read    = generic_file_splice_read,
 
  32 EXPORT_SYMBOL(generic_ro_fops);
 
  34 loff_t generic_file_llseek(struct file *file, loff_t offset, int origin)
 
  37         struct inode *inode = file->f_mapping->host;
 
  39         mutex_lock(&inode->i_mutex);
 
  42                         offset += inode->i_size;
 
  45                         offset += file->f_pos;
 
  48         if (offset>=0 && offset<=inode->i_sb->s_maxbytes) {
 
  49                 if (offset != file->f_pos) {
 
  55         mutex_unlock(&inode->i_mutex);
 
  59 EXPORT_SYMBOL(generic_file_llseek);
 
  61 loff_t remote_llseek(struct file *file, loff_t offset, int origin)
 
  68                         offset += i_size_read(file->f_path.dentry->d_inode);
 
  71                         offset += file->f_pos;
 
  74         if (offset>=0 && offset<=file->f_path.dentry->d_inode->i_sb->s_maxbytes) {
 
  75                 if (offset != file->f_pos) {
 
  84 EXPORT_SYMBOL(remote_llseek);
 
  86 loff_t no_llseek(struct file *file, loff_t offset, int origin)
 
  90 EXPORT_SYMBOL(no_llseek);
 
  92 loff_t default_llseek(struct file *file, loff_t offset, int origin)
 
  99                         offset += i_size_read(file->f_path.dentry->d_inode);
 
 102                         offset += file->f_pos;
 
 106                 if (offset != file->f_pos) {
 
 107                         file->f_pos = offset;
 
 115 EXPORT_SYMBOL(default_llseek);
 
 117 loff_t vfs_llseek(struct file *file, loff_t offset, int origin)
 
 119         loff_t (*fn)(struct file *, loff_t, int);
 
 122         if (file->f_mode & FMODE_LSEEK) {
 
 124                 if (file->f_op && file->f_op->llseek)
 
 125                         fn = file->f_op->llseek;
 
 127         return fn(file, offset, origin);
 
 129 EXPORT_SYMBOL(vfs_llseek);
 
 131 asmlinkage off_t sys_lseek(unsigned int fd, off_t offset, unsigned int origin)
 
 138         file = fget_light(fd, &fput_needed);
 
 143         if (origin <= SEEK_MAX) {
 
 144                 loff_t res = vfs_llseek(file, offset, origin);
 
 146                 if (res != (loff_t)retval)
 
 147                         retval = -EOVERFLOW;    /* LFS: should only happen on 32 bit platforms */
 
 149         fput_light(file, fput_needed);
 
 154 #ifdef __ARCH_WANT_SYS_LLSEEK
 
 155 asmlinkage long sys_llseek(unsigned int fd, unsigned long offset_high,
 
 156                            unsigned long offset_low, loff_t __user * result,
 
 165         file = fget_light(fd, &fput_needed);
 
 170         if (origin > SEEK_MAX)
 
 173         offset = vfs_llseek(file, ((loff_t) offset_high << 32) | offset_low,
 
 176         retval = (int)offset;
 
 179                 if (!copy_to_user(result, &offset, sizeof(offset)))
 
 183         fput_light(file, fput_needed);
 
 190  * rw_verify_area doesn't like huge counts. We limit
 
 191  * them to something that fits in "int" so that others
 
 192  * won't have to do range checks all the time.
 
 194 #define MAX_RW_COUNT (INT_MAX & PAGE_CACHE_MASK)
 
 196 int rw_verify_area(int read_write, struct file *file, loff_t *ppos, size_t count)
 
 200         int retval = -EINVAL;
 
 202         inode = file->f_path.dentry->d_inode;
 
 203         if (unlikely((ssize_t) count < 0))
 
 206         if (unlikely((pos < 0) || (loff_t) (pos + count) < 0))
 
 209         if (unlikely(inode->i_flock && mandatory_lock(inode))) {
 
 210                 retval = locks_mandatory_area(
 
 211                         read_write == READ ? FLOCK_VERIFY_READ : FLOCK_VERIFY_WRITE,
 
 212                         inode, file, pos, count);
 
 216         retval = security_file_permission(file,
 
 217                                 read_write == READ ? MAY_READ : MAY_WRITE);
 
 220         return count > MAX_RW_COUNT ? MAX_RW_COUNT : count;
 
 223 static void wait_on_retry_sync_kiocb(struct kiocb *iocb)
 
 225         set_current_state(TASK_UNINTERRUPTIBLE);
 
 226         if (!kiocbIsKicked(iocb))
 
 229                 kiocbClearKicked(iocb);
 
 230         __set_current_state(TASK_RUNNING);
 
 233 ssize_t do_sync_read(struct file *filp, char __user *buf, size_t len, loff_t *ppos)
 
 235         struct iovec iov = { .iov_base = buf, .iov_len = len };
 
 239         init_sync_kiocb(&kiocb, filp);
 
 240         kiocb.ki_pos = *ppos;
 
 244                 ret = filp->f_op->aio_read(&kiocb, &iov, 1, kiocb.ki_pos);
 
 245                 if (ret != -EIOCBRETRY)
 
 247                 wait_on_retry_sync_kiocb(&kiocb);
 
 250         if (-EIOCBQUEUED == ret)
 
 251                 ret = wait_on_sync_kiocb(&kiocb);
 
 252         *ppos = kiocb.ki_pos;
 
 256 EXPORT_SYMBOL(do_sync_read);
 
 258 ssize_t vfs_read(struct file *file, char __user *buf, size_t count, loff_t *pos)
 
 262         if (!(file->f_mode & FMODE_READ))
 
 264         if (!file->f_op || (!file->f_op->read && !file->f_op->aio_read))
 
 266         if (unlikely(!access_ok(VERIFY_WRITE, buf, count)))
 
 269         ret = rw_verify_area(READ, file, pos, count);
 
 272                 if (file->f_op->read)
 
 273                         ret = file->f_op->read(file, buf, count, pos);
 
 275                         ret = do_sync_read(file, buf, count, pos);
 
 277                         fsnotify_access(file->f_path.dentry);
 
 278                         add_rchar(current, ret);
 
 286 EXPORT_SYMBOL(vfs_read);
 
 288 ssize_t do_sync_write(struct file *filp, const char __user *buf, size_t len, loff_t *ppos)
 
 290         struct iovec iov = { .iov_base = (void __user *)buf, .iov_len = len };
 
 294         init_sync_kiocb(&kiocb, filp);
 
 295         kiocb.ki_pos = *ppos;
 
 299                 ret = filp->f_op->aio_write(&kiocb, &iov, 1, kiocb.ki_pos);
 
 300                 if (ret != -EIOCBRETRY)
 
 302                 wait_on_retry_sync_kiocb(&kiocb);
 
 305         if (-EIOCBQUEUED == ret)
 
 306                 ret = wait_on_sync_kiocb(&kiocb);
 
 307         *ppos = kiocb.ki_pos;
 
 311 EXPORT_SYMBOL(do_sync_write);
 
 313 ssize_t vfs_write(struct file *file, const char __user *buf, size_t count, loff_t *pos)
 
 317         if (!(file->f_mode & FMODE_WRITE))
 
 319         if (!file->f_op || (!file->f_op->write && !file->f_op->aio_write))
 
 321         if (unlikely(!access_ok(VERIFY_READ, buf, count)))
 
 324         ret = rw_verify_area(WRITE, file, pos, count);
 
 327                 if (file->f_op->write)
 
 328                         ret = file->f_op->write(file, buf, count, pos);
 
 330                         ret = do_sync_write(file, buf, count, pos);
 
 332                         fsnotify_modify(file->f_path.dentry);
 
 333                         add_wchar(current, ret);
 
 341 EXPORT_SYMBOL(vfs_write);
 
 343 static inline loff_t file_pos_read(struct file *file)
 
 348 static inline void file_pos_write(struct file *file, loff_t pos)
 
 353 asmlinkage ssize_t sys_read(unsigned int fd, char __user * buf, size_t count)
 
 356         ssize_t ret = -EBADF;
 
 359         file = fget_light(fd, &fput_needed);
 
 361                 loff_t pos = file_pos_read(file);
 
 362                 ret = vfs_read(file, buf, count, &pos);
 
 363                 file_pos_write(file, pos);
 
 364                 fput_light(file, fput_needed);
 
 370 asmlinkage ssize_t sys_write(unsigned int fd, const char __user * buf, size_t count)
 
 373         ssize_t ret = -EBADF;
 
 376         file = fget_light(fd, &fput_needed);
 
 378                 loff_t pos = file_pos_read(file);
 
 379                 ret = vfs_write(file, buf, count, &pos);
 
 380                 file_pos_write(file, pos);
 
 381                 fput_light(file, fput_needed);
 
 387 asmlinkage ssize_t sys_pread64(unsigned int fd, char __user *buf,
 
 388                              size_t count, loff_t pos)
 
 391         ssize_t ret = -EBADF;
 
 397         file = fget_light(fd, &fput_needed);
 
 400                 if (file->f_mode & FMODE_PREAD)
 
 401                         ret = vfs_read(file, buf, count, &pos);
 
 402                 fput_light(file, fput_needed);
 
 408 asmlinkage ssize_t sys_pwrite64(unsigned int fd, const char __user *buf,
 
 409                               size_t count, loff_t pos)
 
 412         ssize_t ret = -EBADF;
 
 418         file = fget_light(fd, &fput_needed);
 
 421                 if (file->f_mode & FMODE_PWRITE)  
 
 422                         ret = vfs_write(file, buf, count, &pos);
 
 423                 fput_light(file, fput_needed);
 
 430  * Reduce an iovec's length in-place.  Return the resulting number of segments
 
 432 unsigned long iov_shorten(struct iovec *iov, unsigned long nr_segs, size_t to)
 
 434         unsigned long seg = 0;
 
 437         while (seg < nr_segs) {
 
 439                 if (len + iov->iov_len >= to) {
 
 440                         iov->iov_len = to - len;
 
 448 EXPORT_SYMBOL(iov_shorten);
 
 450 ssize_t do_sync_readv_writev(struct file *filp, const struct iovec *iov,
 
 451                 unsigned long nr_segs, size_t len, loff_t *ppos, iov_fn_t fn)
 
 456         init_sync_kiocb(&kiocb, filp);
 
 457         kiocb.ki_pos = *ppos;
 
 459         kiocb.ki_nbytes = len;
 
 462                 ret = fn(&kiocb, iov, nr_segs, kiocb.ki_pos);
 
 463                 if (ret != -EIOCBRETRY)
 
 465                 wait_on_retry_sync_kiocb(&kiocb);
 
 468         if (ret == -EIOCBQUEUED)
 
 469                 ret = wait_on_sync_kiocb(&kiocb);
 
 470         *ppos = kiocb.ki_pos;
 
 474 /* Do it by hand, with file-ops */
 
 475 ssize_t do_loop_readv_writev(struct file *filp, struct iovec *iov,
 
 476                 unsigned long nr_segs, loff_t *ppos, io_fn_t fn)
 
 478         struct iovec *vector = iov;
 
 481         while (nr_segs > 0) {
 
 486                 base = vector->iov_base;
 
 487                 len = vector->iov_len;
 
 491                 nr = fn(filp, base, len, ppos);
 
 506 /* A write operation does a read from user space and vice versa */
 
 507 #define vrfy_dir(type) ((type) == READ ? VERIFY_WRITE : VERIFY_READ)
 
 509 ssize_t rw_copy_check_uvector(int type, const struct iovec __user * uvector,
 
 510                               unsigned long nr_segs, unsigned long fast_segs,
 
 511                               struct iovec *fast_pointer,
 
 512                               struct iovec **ret_pointer)
 
 516         struct iovec *iov = fast_pointer;
 
 519          * SuS says "The readv() function *may* fail if the iovcnt argument
 
 520          * was less than or equal to 0, or greater than {IOV_MAX}.  Linux has
 
 521          * traditionally returned zero for zero segments, so...
 
 529          * First get the "struct iovec" from user memory and
 
 530          * verify all the pointers
 
 532         if (nr_segs > UIO_MAXIOV) {
 
 536         if (nr_segs > fast_segs) {
 
 537                 iov = kmalloc(nr_segs*sizeof(struct iovec), GFP_KERNEL);
 
 543         if (copy_from_user(iov, uvector, nr_segs*sizeof(*uvector))) {
 
 549          * According to the Single Unix Specification we should return EINVAL
 
 550          * if an element length is < 0 when cast to ssize_t or if the
 
 551          * total length would overflow the ssize_t return value of the
 
 555         for (seg = 0; seg < nr_segs; seg++) {
 
 556                 void __user *buf = iov[seg].iov_base;
 
 557                 ssize_t len = (ssize_t)iov[seg].iov_len;
 
 559                 /* see if we we're about to use an invalid len or if
 
 560                  * it's about to overflow ssize_t */
 
 561                 if (len < 0 || (ret + len < ret)) {
 
 565                 if (unlikely(!access_ok(vrfy_dir(type), buf, len))) {
 
 577 static ssize_t do_readv_writev(int type, struct file *file,
 
 578                                const struct iovec __user * uvector,
 
 579                                unsigned long nr_segs, loff_t *pos)
 
 582         struct iovec iovstack[UIO_FASTIOV];
 
 583         struct iovec *iov = iovstack;
 
 593         ret = rw_copy_check_uvector(type, uvector, nr_segs,
 
 594                         ARRAY_SIZE(iovstack), iovstack, &iov);
 
 599         ret = rw_verify_area(type, file, pos, tot_len);
 
 605                 fn = file->f_op->read;
 
 606                 fnv = file->f_op->aio_read;
 
 608                 fn = (io_fn_t)file->f_op->write;
 
 609                 fnv = file->f_op->aio_write;
 
 613                 ret = do_sync_readv_writev(file, iov, nr_segs, tot_len,
 
 616                 ret = do_loop_readv_writev(file, iov, nr_segs, pos, fn);
 
 621         if ((ret + (type == READ)) > 0) {
 
 623                         fsnotify_access(file->f_path.dentry);
 
 625                         fsnotify_modify(file->f_path.dentry);
 
 630 ssize_t vfs_readv(struct file *file, const struct iovec __user *vec,
 
 631                   unsigned long vlen, loff_t *pos)
 
 633         if (!(file->f_mode & FMODE_READ))
 
 635         if (!file->f_op || (!file->f_op->aio_read && !file->f_op->read))
 
 638         return do_readv_writev(READ, file, vec, vlen, pos);
 
 641 EXPORT_SYMBOL(vfs_readv);
 
 643 ssize_t vfs_writev(struct file *file, const struct iovec __user *vec,
 
 644                    unsigned long vlen, loff_t *pos)
 
 646         if (!(file->f_mode & FMODE_WRITE))
 
 648         if (!file->f_op || (!file->f_op->aio_write && !file->f_op->write))
 
 651         return do_readv_writev(WRITE, file, vec, vlen, pos);
 
 654 EXPORT_SYMBOL(vfs_writev);
 
 657 sys_readv(unsigned long fd, const struct iovec __user *vec, unsigned long vlen)
 
 660         ssize_t ret = -EBADF;
 
 663         file = fget_light(fd, &fput_needed);
 
 665                 loff_t pos = file_pos_read(file);
 
 666                 ret = vfs_readv(file, vec, vlen, &pos);
 
 667                 file_pos_write(file, pos);
 
 668                 fput_light(file, fput_needed);
 
 672                 add_rchar(current, ret);
 
 678 sys_writev(unsigned long fd, const struct iovec __user *vec, unsigned long vlen)
 
 681         ssize_t ret = -EBADF;
 
 684         file = fget_light(fd, &fput_needed);
 
 686                 loff_t pos = file_pos_read(file);
 
 687                 ret = vfs_writev(file, vec, vlen, &pos);
 
 688                 file_pos_write(file, pos);
 
 689                 fput_light(file, fput_needed);
 
 693                 add_wchar(current, ret);
 
 698 static ssize_t do_sendfile(int out_fd, int in_fd, loff_t *ppos,
 
 699                            size_t count, loff_t max)
 
 701         struct file * in_file, * out_file;
 
 702         struct inode * in_inode, * out_inode;
 
 705         int fput_needed_in, fput_needed_out, fl;
 
 708          * Get input file, and verify that it is ok..
 
 711         in_file = fget_light(in_fd, &fput_needed_in);
 
 714         if (!(in_file->f_mode & FMODE_READ))
 
 717         in_inode = in_file->f_path.dentry->d_inode;
 
 720         if (!in_file->f_op || !in_file->f_op->splice_read)
 
 724                 ppos = &in_file->f_pos;
 
 726                 if (!(in_file->f_mode & FMODE_PREAD))
 
 728         retval = rw_verify_area(READ, in_file, ppos, count);
 
 734          * Get output file, and verify that it is ok..
 
 737         out_file = fget_light(out_fd, &fput_needed_out);
 
 740         if (!(out_file->f_mode & FMODE_WRITE))
 
 743         if (!out_file->f_op || !out_file->f_op->sendpage)
 
 745         out_inode = out_file->f_path.dentry->d_inode;
 
 746         retval = rw_verify_area(WRITE, out_file, &out_file->f_pos, count);
 
 752                 max = min(in_inode->i_sb->s_maxbytes, out_inode->i_sb->s_maxbytes);
 
 756         if (unlikely(pos < 0))
 
 758         if (unlikely(pos + count > max)) {
 
 768          * We need to debate whether we can enable this or not. The
 
 769          * man page documents EAGAIN return for the output at least,
 
 770          * and the application is arguably buggy if it doesn't expect
 
 771          * EAGAIN on a non-blocking file descriptor.
 
 773         if (in_file->f_flags & O_NONBLOCK)
 
 774                 fl = SPLICE_F_NONBLOCK;
 
 776         retval = do_splice_direct(in_file, ppos, out_file, count, fl);
 
 779                 add_rchar(current, retval);
 
 780                 add_wchar(current, retval);
 
 789         fput_light(out_file, fput_needed_out);
 
 791         fput_light(in_file, fput_needed_in);
 
 796 asmlinkage ssize_t sys_sendfile(int out_fd, int in_fd, off_t __user *offset, size_t count)
 
 803                 if (unlikely(get_user(off, offset)))
 
 806                 ret = do_sendfile(out_fd, in_fd, &pos, count, MAX_NON_LFS);
 
 807                 if (unlikely(put_user(pos, offset)))
 
 812         return do_sendfile(out_fd, in_fd, NULL, count, 0);
 
 815 asmlinkage ssize_t sys_sendfile64(int out_fd, int in_fd, loff_t __user *offset, size_t count)
 
 821                 if (unlikely(copy_from_user(&pos, offset, sizeof(loff_t))))
 
 823                 ret = do_sendfile(out_fd, in_fd, &pos, count, 0);
 
 824                 if (unlikely(put_user(pos, offset)))
 
 829         return do_sendfile(out_fd, in_fd, NULL, count, 0);