2  * This file is part of UBIFS.
 
   4  * Copyright (C) 2006-2008 Nokia Corporation.
 
   6  * This program is free software; you can redistribute it and/or modify it
 
   7  * under the terms of the GNU General Public License version 2 as published by
 
   8  * the Free Software Foundation.
 
  10  * This program is distributed in the hope that it will be useful, but WITHOUT
 
  11  * ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or
 
  12  * FITNESS FOR A PARTICULAR PURPOSE.  See the GNU General Public License for
 
  15  * You should have received a copy of the GNU General Public License along with
 
  16  * this program; if not, write to the Free Software Foundation, Inc., 51
 
  17  * Franklin St, Fifth Floor, Boston, MA 02110-1301 USA
 
  19  * Authors: Adrian Hunter
 
  20  *          Artem Bityutskiy (Битюцкий Артём)
 
  24  * This file implements functions that manage the running of the commit process.
 
  25  * Each affected module has its own functions to accomplish their part in the
 
  26  * commit and those functions are called here.
 
  28  * The commit is the process whereby all updates to the index and LEB properties
 
  29  * are written out together and the journal becomes empty. This keeps the
 
  30  * file system consistent - at all times the state can be recreated by reading
 
  31  * the index and LEB properties and then replaying the journal.
 
  33  * The commit is split into two parts named "commit start" and "commit end".
 
  34  * During commit start, the commit process has exclusive access to the journal
 
  35  * by holding the commit semaphore down for writing. As few I/O operations as
 
  36  * possible are performed during commit start, instead the nodes that are to be
 
  37  * written are merely identified. During commit end, the commit semaphore is no
 
  38  * longer held and the journal is again in operation, allowing users to continue
 
  39  * to use the file system while the bulk of the commit I/O is performed. The
 
  40  * purpose of this two-step approach is to prevent the commit from causing any
 
  41  * latency blips. Note that in any case, the commit does not prevent lookups
 
  42  * (as permitted by the TNC mutex), or access to VFS data structures e.g. page
 
  46 #include <linux/freezer.h>
 
  47 #include <linux/kthread.h>
 
  51  * do_commit - commit the journal.
 
  52  * @c: UBIFS file-system description object
 
  54  * This function implements UBIFS commit. It has to be called with commit lock
 
  55  * locked. Returns zero in case of success and a negative error code in case of
 
  58 static int do_commit(struct ubifs_info *c)
 
  60         int err, new_ltail_lnum, old_ltail_lnum, i;
 
  61         struct ubifs_zbranch zroot;
 
  62         struct ubifs_lp_stats lst;
 
  70         /* Sync all write buffers (necessary for recovery) */
 
  71         for (i = 0; i < c->jhead_cnt; i++) {
 
  72                 err = ubifs_wbuf_sync(&c->jheads[i].wbuf);
 
  78         err = ubifs_gc_start_commit(c);
 
  81         err = dbg_check_lprops(c);
 
  84         err = ubifs_log_start_commit(c, &new_ltail_lnum);
 
  87         err = ubifs_tnc_start_commit(c, &zroot);
 
  90         err = ubifs_lpt_start_commit(c);
 
  93         err = ubifs_orphan_start_commit(c);
 
  97         ubifs_get_lp_stats(c, &lst);
 
  99         up_write(&c->commit_sem);
 
 101         err = ubifs_tnc_end_commit(c);
 
 104         err = ubifs_lpt_end_commit(c);
 
 107         err = ubifs_orphan_end_commit(c);
 
 110         old_ltail_lnum = c->ltail_lnum;
 
 111         err = ubifs_log_end_commit(c, new_ltail_lnum);
 
 114         err = dbg_check_old_index(c, &zroot);
 
 118         mutex_lock(&c->mst_mutex);
 
 119         c->mst_node->cmt_no      = cpu_to_le64(c->cmt_no);
 
 120         c->mst_node->log_lnum    = cpu_to_le32(new_ltail_lnum);
 
 121         c->mst_node->root_lnum   = cpu_to_le32(zroot.lnum);
 
 122         c->mst_node->root_offs   = cpu_to_le32(zroot.offs);
 
 123         c->mst_node->root_len    = cpu_to_le32(zroot.len);
 
 124         c->mst_node->ihead_lnum  = cpu_to_le32(c->ihead_lnum);
 
 125         c->mst_node->ihead_offs  = cpu_to_le32(c->ihead_offs);
 
 126         c->mst_node->index_size  = cpu_to_le64(c->old_idx_sz);
 
 127         c->mst_node->lpt_lnum    = cpu_to_le32(c->lpt_lnum);
 
 128         c->mst_node->lpt_offs    = cpu_to_le32(c->lpt_offs);
 
 129         c->mst_node->nhead_lnum  = cpu_to_le32(c->nhead_lnum);
 
 130         c->mst_node->nhead_offs  = cpu_to_le32(c->nhead_offs);
 
 131         c->mst_node->ltab_lnum   = cpu_to_le32(c->ltab_lnum);
 
 132         c->mst_node->ltab_offs   = cpu_to_le32(c->ltab_offs);
 
 133         c->mst_node->lsave_lnum  = cpu_to_le32(c->lsave_lnum);
 
 134         c->mst_node->lsave_offs  = cpu_to_le32(c->lsave_offs);
 
 135         c->mst_node->lscan_lnum  = cpu_to_le32(c->lscan_lnum);
 
 136         c->mst_node->empty_lebs  = cpu_to_le32(lst.empty_lebs);
 
 137         c->mst_node->idx_lebs    = cpu_to_le32(lst.idx_lebs);
 
 138         c->mst_node->total_free  = cpu_to_le64(lst.total_free);
 
 139         c->mst_node->total_dirty = cpu_to_le64(lst.total_dirty);
 
 140         c->mst_node->total_used  = cpu_to_le64(lst.total_used);
 
 141         c->mst_node->total_dead  = cpu_to_le64(lst.total_dead);
 
 142         c->mst_node->total_dark  = cpu_to_le64(lst.total_dark);
 
 144                 c->mst_node->flags |= cpu_to_le32(UBIFS_MST_NO_ORPHS);
 
 146                 c->mst_node->flags &= ~cpu_to_le32(UBIFS_MST_NO_ORPHS);
 
 147         err = ubifs_write_master(c);
 
 148         mutex_unlock(&c->mst_mutex);
 
 152         err = ubifs_log_post_commit(c, old_ltail_lnum);
 
 155         err = ubifs_gc_end_commit(c);
 
 158         err = ubifs_lpt_post_commit(c);
 
 162         spin_lock(&c->cs_lock);
 
 163         c->cmt_state = COMMIT_RESTING;
 
 165         dbg_cmt("commit end");
 
 166         spin_unlock(&c->cs_lock);
 
 171         up_write(&c->commit_sem);
 
 173         ubifs_err("commit failed, error %d", err);
 
 174         spin_lock(&c->cs_lock);
 
 175         c->cmt_state = COMMIT_BROKEN;
 
 177         spin_unlock(&c->cs_lock);
 
 178         ubifs_ro_mode(c, err);
 
 183  * run_bg_commit - run background commit if it is needed.
 
 184  * @c: UBIFS file-system description object
 
 186  * This function runs background commit if it is needed. Returns zero in case
 
 187  * of success and a negative error code in case of failure.
 
 189 static int run_bg_commit(struct ubifs_info *c)
 
 191         spin_lock(&c->cs_lock);
 
 193          * Run background commit only if background commit was requested or if
 
 194          * commit is required.
 
 196         if (c->cmt_state != COMMIT_BACKGROUND &&
 
 197             c->cmt_state != COMMIT_REQUIRED)
 
 199         spin_unlock(&c->cs_lock);
 
 201         down_write(&c->commit_sem);
 
 202         spin_lock(&c->cs_lock);
 
 203         if (c->cmt_state == COMMIT_REQUIRED)
 
 204                 c->cmt_state = COMMIT_RUNNING_REQUIRED;
 
 205         else if (c->cmt_state == COMMIT_BACKGROUND)
 
 206                 c->cmt_state = COMMIT_RUNNING_BACKGROUND;
 
 209         spin_unlock(&c->cs_lock);
 
 214         up_write(&c->commit_sem);
 
 216         spin_unlock(&c->cs_lock);
 
 221  * ubifs_bg_thread - UBIFS background thread function.
 
 222  * @info: points to the file-system description object
 
 224  * This function implements various file-system background activities:
 
 225  * o when a write-buffer timer expires it synchronizes the appropriate
 
 227  * o when the journal is about to be full, it starts in-advance commit.
 
 229  * Note, other stuff like background garbage collection may be added here in
 
 232 int ubifs_bg_thread(void *info)
 
 235         struct ubifs_info *c = info;
 
 237         ubifs_msg("background thread \"%s\" started, PID %d",
 
 238                   c->bgt_name, current->pid);
 
 242                 if (kthread_should_stop())
 
 248                 set_current_state(TASK_INTERRUPTIBLE);
 
 249                 /* Check if there is something to do */
 
 252                          * Nothing prevents us from going sleep now and
 
 253                          * be never woken up and block the task which
 
 254                          * could wait in 'kthread_stop()' forever.
 
 256                         if (kthread_should_stop())
 
 261                         __set_current_state(TASK_RUNNING);
 
 264                 err = ubifs_bg_wbufs_sync(c);
 
 266                         ubifs_ro_mode(c, err);
 
 272         dbg_msg("background thread \"%s\" stops", c->bgt_name);
 
 277  * ubifs_commit_required - set commit state to "required".
 
 278  * @c: UBIFS file-system description object
 
 280  * This function is called if a commit is required but cannot be done from the
 
 281  * calling function, so it is just flagged instead.
 
 283 void ubifs_commit_required(struct ubifs_info *c)
 
 285         spin_lock(&c->cs_lock);
 
 286         switch (c->cmt_state) {
 
 288         case COMMIT_BACKGROUND:
 
 289                 dbg_cmt("old: %s, new: %s", dbg_cstate(c->cmt_state),
 
 290                         dbg_cstate(COMMIT_REQUIRED));
 
 291                 c->cmt_state = COMMIT_REQUIRED;
 
 293         case COMMIT_RUNNING_BACKGROUND:
 
 294                 dbg_cmt("old: %s, new: %s", dbg_cstate(c->cmt_state),
 
 295                         dbg_cstate(COMMIT_RUNNING_REQUIRED));
 
 296                 c->cmt_state = COMMIT_RUNNING_REQUIRED;
 
 298         case COMMIT_REQUIRED:
 
 299         case COMMIT_RUNNING_REQUIRED:
 
 303         spin_unlock(&c->cs_lock);
 
 307  * ubifs_request_bg_commit - notify the background thread to do a commit.
 
 308  * @c: UBIFS file-system description object
 
 310  * This function is called if the journal is full enough to make a commit
 
 311  * worthwhile, so background thread is kicked to start it.
 
 313 void ubifs_request_bg_commit(struct ubifs_info *c)
 
 315         spin_lock(&c->cs_lock);
 
 316         if (c->cmt_state == COMMIT_RESTING) {
 
 317                 dbg_cmt("old: %s, new: %s", dbg_cstate(c->cmt_state),
 
 318                         dbg_cstate(COMMIT_BACKGROUND));
 
 319                 c->cmt_state = COMMIT_BACKGROUND;
 
 320                 spin_unlock(&c->cs_lock);
 
 321                 ubifs_wake_up_bgt(c);
 
 323                 spin_unlock(&c->cs_lock);
 
 327  * wait_for_commit - wait for commit.
 
 328  * @c: UBIFS file-system description object
 
 330  * This function sleeps until the commit operation is no longer running.
 
 332 static int wait_for_commit(struct ubifs_info *c)
 
 334         dbg_cmt("pid %d goes sleep", current->pid);
 
 337          * The following sleeps if the condition is false, and will be woken
 
 338          * when the commit ends. It is possible, although very unlikely, that we
 
 339          * will wake up and see the subsequent commit running, rather than the
 
 340          * one we were waiting for, and go back to sleep.  However, we will be
 
 341          * woken again, so there is no danger of sleeping forever.
 
 343         wait_event(c->cmt_wq, c->cmt_state != COMMIT_RUNNING_BACKGROUND &&
 
 344                               c->cmt_state != COMMIT_RUNNING_REQUIRED);
 
 345         dbg_cmt("commit finished, pid %d woke up", current->pid);
 
 350  * ubifs_run_commit - run or wait for commit.
 
 351  * @c: UBIFS file-system description object
 
 353  * This function runs commit and returns zero in case of success and a negative
 
 354  * error code in case of failure.
 
 356 int ubifs_run_commit(struct ubifs_info *c)
 
 360         spin_lock(&c->cs_lock);
 
 361         if (c->cmt_state == COMMIT_BROKEN) {
 
 366         if (c->cmt_state == COMMIT_RUNNING_BACKGROUND)
 
 368                  * We set the commit state to 'running required' to indicate
 
 369                  * that we want it to complete as quickly as possible.
 
 371                 c->cmt_state = COMMIT_RUNNING_REQUIRED;
 
 373         if (c->cmt_state == COMMIT_RUNNING_REQUIRED) {
 
 374                 spin_unlock(&c->cs_lock);
 
 375                 return wait_for_commit(c);
 
 377         spin_unlock(&c->cs_lock);
 
 379         /* Ok, the commit is indeed needed */
 
 381         down_write(&c->commit_sem);
 
 382         spin_lock(&c->cs_lock);
 
 384          * Since we unlocked 'c->cs_lock', the state may have changed, so
 
 387         if (c->cmt_state == COMMIT_BROKEN) {
 
 392         if (c->cmt_state == COMMIT_RUNNING_BACKGROUND)
 
 393                 c->cmt_state = COMMIT_RUNNING_REQUIRED;
 
 395         if (c->cmt_state == COMMIT_RUNNING_REQUIRED) {
 
 396                 up_write(&c->commit_sem);
 
 397                 spin_unlock(&c->cs_lock);
 
 398                 return wait_for_commit(c);
 
 400         c->cmt_state = COMMIT_RUNNING_REQUIRED;
 
 401         spin_unlock(&c->cs_lock);
 
 407         up_write(&c->commit_sem);
 
 409         spin_unlock(&c->cs_lock);
 
 414  * ubifs_gc_should_commit - determine if it is time for GC to run commit.
 
 415  * @c: UBIFS file-system description object
 
 417  * This function is called by garbage collection to determine if commit should
 
 418  * be run. If commit state is @COMMIT_BACKGROUND, which means that the journal
 
 419  * is full enough to start commit, this function returns true. It is not
 
 420  * absolutely necessary to commit yet, but it feels like this should be better
 
 421  * then to keep doing GC. This function returns %1 if GC has to initiate commit
 
 424 int ubifs_gc_should_commit(struct ubifs_info *c)
 
 428         spin_lock(&c->cs_lock);
 
 429         if (c->cmt_state == COMMIT_BACKGROUND) {
 
 430                 dbg_cmt("commit required now");
 
 431                 c->cmt_state = COMMIT_REQUIRED;
 
 433                 dbg_cmt("commit not requested");
 
 434         if (c->cmt_state == COMMIT_REQUIRED)
 
 436         spin_unlock(&c->cs_lock);
 
 440 #ifdef CONFIG_UBIFS_FS_DEBUG
 
 443  * struct idx_node - hold index nodes during index tree traversal.
 
 445  * @iip: index in parent (slot number of this indexing node in the parent
 
 447  * @upper_key: all keys in this indexing node have to be less or equivalent to
 
 449  * @idx: index node (8-byte aligned because all node structures must be 8-byte
 
 453         struct list_head list;
 
 455         union ubifs_key upper_key;
 
 456         struct ubifs_idx_node idx __attribute__((aligned(8)));
 
 460  * dbg_old_index_check_init - get information for the next old index check.
 
 461  * @c: UBIFS file-system description object
 
 462  * @zroot: root of the index
 
 464  * This function records information about the index that will be needed for the
 
 465  * next old index check i.e. 'dbg_check_old_index()'.
 
 467  * This function returns %0 on success and a negative error code on failure.
 
 469 int dbg_old_index_check_init(struct ubifs_info *c, struct ubifs_zbranch *zroot)
 
 471         struct ubifs_idx_node *idx;
 
 472         int lnum, offs, len, err = 0;
 
 474         c->old_zroot = *zroot;
 
 476         lnum = c->old_zroot.lnum;
 
 477         offs = c->old_zroot.offs;
 
 478         len = c->old_zroot.len;
 
 480         idx = kmalloc(c->max_idx_node_sz, GFP_NOFS);
 
 484         err = ubifs_read_node(c, idx, UBIFS_IDX_NODE, len, lnum, offs);
 
 488         c->old_zroot_level = le16_to_cpu(idx->level);
 
 489         c->old_zroot_sqnum = le64_to_cpu(idx->ch.sqnum);
 
 496  * dbg_check_old_index - check the old copy of the index.
 
 497  * @c: UBIFS file-system description object
 
 498  * @zroot: root of the new index
 
 500  * In order to be able to recover from an unclean unmount, a complete copy of
 
 501  * the index must exist on flash. This is the "old" index. The commit process
 
 502  * must write the "new" index to flash without overwriting or destroying any
 
 503  * part of the old index. This function is run at commit end in order to check
 
 504  * that the old index does indeed exist completely intact.
 
 506  * This function returns %0 on success and a negative error code on failure.
 
 508 int dbg_check_old_index(struct ubifs_info *c, struct ubifs_zbranch *zroot)
 
 510         int lnum, offs, len, err = 0, uninitialized_var(last_level), child_cnt;
 
 512         union ubifs_key lower_key, upper_key, l_key, u_key;
 
 513         unsigned long long uninitialized_var(last_sqnum);
 
 514         struct ubifs_idx_node *idx;
 
 515         struct list_head list;
 
 519         if (!(ubifs_chk_flags & UBIFS_CHK_OLD_IDX))
 
 522         INIT_LIST_HEAD(&list);
 
 524         sz = sizeof(struct idx_node) + ubifs_idx_node_sz(c, c->fanout) -
 
 527         /* Start at the old zroot */
 
 528         lnum = c->old_zroot.lnum;
 
 529         offs = c->old_zroot.offs;
 
 530         len = c->old_zroot.len;
 
 534          * Traverse the index tree preorder depth-first i.e. do a node and then
 
 535          * its subtrees from left to right.
 
 538                 struct ubifs_branch *br;
 
 540                 /* Get the next index node */
 
 541                 i = kmalloc(sz, GFP_NOFS);
 
 547                 /* Keep the index nodes on our path in a linked list */
 
 548                 list_add_tail(&i->list, &list);
 
 549                 /* Read the index node */
 
 551                 err = ubifs_read_node(c, idx, UBIFS_IDX_NODE, len, lnum, offs);
 
 554                 /* Validate index node */
 
 555                 child_cnt = le16_to_cpu(idx->child_cnt);
 
 556                 if (child_cnt < 1 || child_cnt > c->fanout) {
 
 562                         /* Check root level and sqnum */
 
 563                         if (le16_to_cpu(idx->level) != c->old_zroot_level) {
 
 567                         if (le64_to_cpu(idx->ch.sqnum) != c->old_zroot_sqnum) {
 
 571                         /* Set last values as though root had a parent */
 
 572                         last_level = le16_to_cpu(idx->level) + 1;
 
 573                         last_sqnum = le64_to_cpu(idx->ch.sqnum) + 1;
 
 574                         key_read(c, ubifs_idx_key(c, idx), &lower_key);
 
 575                         highest_ino_key(c, &upper_key, INUM_WATERMARK);
 
 577                 key_copy(c, &upper_key, &i->upper_key);
 
 578                 if (le16_to_cpu(idx->level) != last_level - 1) {
 
 583                  * The index is always written bottom up hence a child's sqnum
 
 584                  * is always less than the parents.
 
 586                 if (le64_to_cpu(idx->ch.sqnum) >= last_sqnum) {
 
 590                 /* Check key range */
 
 591                 key_read(c, ubifs_idx_key(c, idx), &l_key);
 
 592                 br = ubifs_idx_branch(c, idx, child_cnt - 1);
 
 593                 key_read(c, &br->key, &u_key);
 
 594                 if (keys_cmp(c, &lower_key, &l_key) > 0) {
 
 598                 if (keys_cmp(c, &upper_key, &u_key) < 0) {
 
 602                 if (keys_cmp(c, &upper_key, &u_key) == 0)
 
 603                         if (!is_hash_key(c, &u_key)) {
 
 607                 /* Go to next index node */
 
 608                 if (le16_to_cpu(idx->level) == 0) {
 
 609                         /* At the bottom, so go up until can go right */
 
 611                                 /* Drop the bottom of the list */
 
 614                                 /* No more list means we are done */
 
 615                                 if (list_empty(&list))
 
 617                                 /* Look at the new bottom */
 
 618                                 i = list_entry(list.prev, struct idx_node,
 
 621                                 /* Can we go right */
 
 622                                 if (iip + 1 < le16_to_cpu(idx->child_cnt)) {
 
 626                                         /* Nope, so go up again */
 
 633                  * We have the parent in 'idx' and now we set up for reading the
 
 634                  * child pointed to by slot 'iip'.
 
 636                 last_level = le16_to_cpu(idx->level);
 
 637                 last_sqnum = le64_to_cpu(idx->ch.sqnum);
 
 638                 br = ubifs_idx_branch(c, idx, iip);
 
 639                 lnum = le32_to_cpu(br->lnum);
 
 640                 offs = le32_to_cpu(br->offs);
 
 641                 len = le32_to_cpu(br->len);
 
 642                 key_read(c, &br->key, &lower_key);
 
 643                 if (iip + 1 < le16_to_cpu(idx->child_cnt)) {
 
 644                         br = ubifs_idx_branch(c, idx, iip + 1);
 
 645                         key_read(c, &br->key, &upper_key);
 
 647                         key_copy(c, &i->upper_key, &upper_key);
 
 650         err = dbg_old_index_check_init(c, zroot);
 
 657         dbg_err("dumping index node (iip=%d)", i->iip);
 
 658         dbg_dump_node(c, idx);
 
 661         if (!list_empty(&list)) {
 
 662                 i = list_entry(list.prev, struct idx_node, list);
 
 663                 dbg_err("dumping parent index node");
 
 664                 dbg_dump_node(c, &i->idx);
 
 667         while (!list_empty(&list)) {
 
 668                 i = list_entry(list.next, struct idx_node, list);
 
 672         ubifs_err("failed, error %d", err);
 
 678 #endif /* CONFIG_UBIFS_FS_DEBUG */