2  * net/sched/cls_u32.c  Ugly (or Universal) 32bit key Packet Classifier.
 
   4  *              This program is free software; you can redistribute it and/or
 
   5  *              modify it under the terms of the GNU General Public License
 
   6  *              as published by the Free Software Foundation; either version
 
   7  *              2 of the License, or (at your option) any later version.
 
   9  * Authors:     Alexey Kuznetsov, <kuznet@ms2.inr.ac.ru>
 
  11  *      The filters are packed to hash tables of key nodes
 
  12  *      with a set of 32bit key/mask pairs at every node.
 
  13  *      Nodes reference next level hash tables etc.
 
  15  *      This scheme is the best universal classifier I managed to
 
  16  *      invent; it is not super-fast, but it is not slow (provided you
 
  17  *      program it correctly), and general enough.  And its relative
 
  18  *      speed grows as the number of rules becomes larger.
 
  20  *      It seems that it represents the best middle point between
 
  21  *      speed and manageability both by human and by machine.
 
  23  *      It is especially useful for link sharing combined with QoS;
 
  24  *      pure RSVP doesn't need such a general approach and can use
 
  25  *      much simpler (and faster) schemes, sort of cls_rsvp.c.
 
  27  *      JHS: We should remove the CONFIG_NET_CLS_IND from here
 
  28  *      eventually when the meta match extension is made available
 
  30  *      nfmark match added by Catalin(ux aka Dino) BOIE <catab at umbrella.ro>
 
  33 #include <asm/uaccess.h>
 
  34 #include <asm/system.h>
 
  35 #include <linux/bitops.h>
 
  36 #include <linux/config.h>
 
  37 #include <linux/module.h>
 
  38 #include <linux/types.h>
 
  39 #include <linux/kernel.h>
 
  40 #include <linux/sched.h>
 
  41 #include <linux/string.h>
 
  43 #include <linux/socket.h>
 
  44 #include <linux/sockios.h>
 
  46 #include <linux/errno.h>
 
  47 #include <linux/interrupt.h>
 
  48 #include <linux/if_ether.h>
 
  49 #include <linux/inet.h>
 
  50 #include <linux/netdevice.h>
 
  51 #include <linux/etherdevice.h>
 
  52 #include <linux/notifier.h>
 
  53 #include <linux/rtnetlink.h>
 
  55 #include <net/route.h>
 
  56 #include <linux/skbuff.h>
 
  58 #include <net/act_api.h>
 
  59 #include <net/pkt_cls.h>
 
  63         struct tc_u_knode       *next;
 
  65         struct tc_u_hnode       *ht_up;
 
  67 #ifdef CONFIG_NET_CLS_IND
 
  71         struct tcf_result       res;
 
  72         struct tc_u_hnode       *ht_down;
 
  73 #ifdef CONFIG_CLS_U32_PERF
 
  74         struct tc_u32_pcnt      *pf;
 
  76 #ifdef CONFIG_CLS_U32_MARK
 
  77         struct tc_u32_mark      mark;
 
  79         struct tc_u32_sel       sel;
 
  84         struct tc_u_hnode       *next;
 
  87         struct tc_u_common      *tp_c;
 
  90         struct tc_u_knode       *ht[1];
 
  95         struct tc_u_common      *next;
 
  96         struct tc_u_hnode       *hlist;
 
 102 static struct tcf_ext_map u32_ext_map = {
 
 103         .action = TCA_U32_ACT,
 
 104         .police = TCA_U32_POLICE
 
 107 static struct tc_u_common *u32_list;
 
 109 static __inline__ unsigned u32_hash_fold(u32 key, struct tc_u32_sel *sel, u8 fshift)
 
 111         unsigned h = (key & sel->hmask)>>fshift;
 
 116 static int u32_classify(struct sk_buff *skb, struct tcf_proto *tp, struct tcf_result *res)
 
 119                 struct tc_u_knode *knode;
 
 121         } stack[TC_U32_MAXDEPTH];
 
 123         struct tc_u_hnode *ht = (struct tc_u_hnode*)tp->root;
 
 124         u8 *ptr = skb->nh.raw;
 
 125         struct tc_u_knode *n;
 
 129 #ifdef CONFIG_CLS_U32_PERF
 
 139                 struct tc_u32_key *key = n->sel.keys;
 
 141 #ifdef CONFIG_CLS_U32_PERF
 
 146 #ifdef CONFIG_CLS_U32_MARK
 
 147                 if ((skb->nfmark & n->mark.mask) != n->mark.val) {
 
 155                 for (i = n->sel.nkeys; i>0; i--, key++) {
 
 157                         if ((*(u32*)(ptr+key->off+(off2&key->offmask))^key->val)&key->mask) {
 
 161 #ifdef CONFIG_CLS_U32_PERF
 
 166                 if (n->ht_down == NULL) {
 
 168                         if (n->sel.flags&TC_U32_TERMINAL) {
 
 171 #ifdef CONFIG_NET_CLS_IND
 
 172                                 if (!tcf_match_indev(skb, n->indev)) {
 
 177 #ifdef CONFIG_CLS_U32_PERF
 
 180                                 r = tcf_exts_exec(skb, &n->exts, res);
 
 193                 if (sdepth >= TC_U32_MAXDEPTH)
 
 195                 stack[sdepth].knode = n;
 
 196                 stack[sdepth].ptr = ptr;
 
 202                         sel = ht->divisor&u32_hash_fold(*(u32*)(ptr+n->sel.hoff), &n->sel,n->fshift);
 
 204                 if (!(n->sel.flags&(TC_U32_VAROFFSET|TC_U32_OFFSET|TC_U32_EAT)))
 
 207                 if (n->sel.flags&(TC_U32_OFFSET|TC_U32_VAROFFSET)) {
 
 208                         off2 = n->sel.off + 3;
 
 209                         if (n->sel.flags&TC_U32_VAROFFSET)
 
 210                                 off2 += ntohs(n->sel.offmask & *(u16*)(ptr+n->sel.offoff)) >>n->sel.offshift;
 
 213                 if (n->sel.flags&TC_U32_EAT) {
 
 224                 n = stack[sdepth].knode;
 
 226                 ptr = stack[sdepth].ptr;
 
 233                 printk("cls_u32: dead loop\n");
 
 237 static __inline__ struct tc_u_hnode *
 
 238 u32_lookup_ht(struct tc_u_common *tp_c, u32 handle)
 
 240         struct tc_u_hnode *ht;
 
 242         for (ht = tp_c->hlist; ht; ht = ht->next)
 
 243                 if (ht->handle == handle)
 
 249 static __inline__ struct tc_u_knode *
 
 250 u32_lookup_key(struct tc_u_hnode *ht, u32 handle)
 
 253         struct tc_u_knode *n = NULL;
 
 255         sel = TC_U32_HASH(handle);
 
 256         if (sel > ht->divisor)
 
 259         for (n = ht->ht[sel]; n; n = n->next)
 
 260                 if (n->handle == handle)
 
 267 static unsigned long u32_get(struct tcf_proto *tp, u32 handle)
 
 269         struct tc_u_hnode *ht;
 
 270         struct tc_u_common *tp_c = tp->data;
 
 272         if (TC_U32_HTID(handle) == TC_U32_ROOT)
 
 275                 ht = u32_lookup_ht(tp_c, TC_U32_HTID(handle));
 
 280         if (TC_U32_KEY(handle) == 0)
 
 281                 return (unsigned long)ht;
 
 283         return (unsigned long)u32_lookup_key(ht, handle);
 
 286 static void u32_put(struct tcf_proto *tp, unsigned long f)
 
 290 static u32 gen_new_htid(struct tc_u_common *tp_c)
 
 295                 if (++tp_c->hgenerator == 0x7FF)
 
 296                         tp_c->hgenerator = 1;
 
 297         } while (--i>0 && u32_lookup_ht(tp_c, (tp_c->hgenerator|0x800)<<20));
 
 299         return i > 0 ? (tp_c->hgenerator|0x800)<<20 : 0;
 
 302 static int u32_init(struct tcf_proto *tp)
 
 304         struct tc_u_hnode *root_ht;
 
 305         struct tc_u_common *tp_c;
 
 307         for (tp_c = u32_list; tp_c; tp_c = tp_c->next)
 
 308                 if (tp_c->q == tp->q)
 
 311         root_ht = kmalloc(sizeof(*root_ht), GFP_KERNEL);
 
 315         memset(root_ht, 0, sizeof(*root_ht));
 
 316         root_ht->divisor = 0;
 
 318         root_ht->handle = tp_c ? gen_new_htid(tp_c) : 0x80000000;
 
 319         root_ht->prio = tp->prio;
 
 322                 tp_c = kmalloc(sizeof(*tp_c), GFP_KERNEL);
 
 327                 memset(tp_c, 0, sizeof(*tp_c));
 
 329                 tp_c->next = u32_list;
 
 334         root_ht->next = tp_c->hlist;
 
 335         tp_c->hlist = root_ht;
 
 336         root_ht->tp_c = tp_c;
 
 343 static int u32_destroy_key(struct tcf_proto *tp, struct tc_u_knode *n)
 
 345         tcf_unbind_filter(tp, &n->res);
 
 346         tcf_exts_destroy(tp, &n->exts);
 
 348                 n->ht_down->refcnt--;
 
 349 #ifdef CONFIG_CLS_U32_PERF
 
 356 static int u32_delete_key(struct tcf_proto *tp, struct tc_u_knode* key)
 
 358         struct tc_u_knode **kp;
 
 359         struct tc_u_hnode *ht = key->ht_up;
 
 362                 for (kp = &ht->ht[TC_U32_HASH(key->handle)]; *kp; kp = &(*kp)->next) {
 
 368                                 u32_destroy_key(tp, key);
 
 377 static void u32_clear_hnode(struct tcf_proto *tp, struct tc_u_hnode *ht)
 
 379         struct tc_u_knode *n;
 
 382         for (h=0; h<=ht->divisor; h++) {
 
 383                 while ((n = ht->ht[h]) != NULL) {
 
 386                         u32_destroy_key(tp, n);
 
 391 static int u32_destroy_hnode(struct tcf_proto *tp, struct tc_u_hnode *ht)
 
 393         struct tc_u_common *tp_c = tp->data;
 
 394         struct tc_u_hnode **hn;
 
 396         BUG_TRAP(!ht->refcnt);
 
 398         u32_clear_hnode(tp, ht);
 
 400         for (hn = &tp_c->hlist; *hn; hn = &(*hn)->next) {
 
 412 static void u32_destroy(struct tcf_proto *tp)
 
 414         struct tc_u_common *tp_c = tp->data;
 
 415         struct tc_u_hnode *root_ht = xchg(&tp->root, NULL);
 
 417         BUG_TRAP(root_ht != NULL);
 
 419         if (root_ht && --root_ht->refcnt == 0)
 
 420                 u32_destroy_hnode(tp, root_ht);
 
 422         if (--tp_c->refcnt == 0) {
 
 423                 struct tc_u_hnode *ht;
 
 424                 struct tc_u_common **tp_cp;
 
 426                 for (tp_cp = &u32_list; *tp_cp; tp_cp = &(*tp_cp)->next) {
 
 427                         if (*tp_cp == tp_c) {
 
 433                 for (ht=tp_c->hlist; ht; ht = ht->next)
 
 434                         u32_clear_hnode(tp, ht);
 
 436                 while ((ht = tp_c->hlist) != NULL) {
 
 437                         tp_c->hlist = ht->next;
 
 439                         BUG_TRAP(ht->refcnt == 0);
 
 450 static int u32_delete(struct tcf_proto *tp, unsigned long arg)
 
 452         struct tc_u_hnode *ht = (struct tc_u_hnode*)arg;
 
 457         if (TC_U32_KEY(ht->handle))
 
 458                 return u32_delete_key(tp, (struct tc_u_knode*)ht);
 
 463         if (--ht->refcnt == 0)
 
 464                 u32_destroy_hnode(tp, ht);
 
 469 static u32 gen_new_kid(struct tc_u_hnode *ht, u32 handle)
 
 471         struct tc_u_knode *n;
 
 474         for (n=ht->ht[TC_U32_HASH(handle)]; n; n = n->next)
 
 475                 if (i < TC_U32_NODE(n->handle))
 
 476                         i = TC_U32_NODE(n->handle);
 
 479         return handle|(i>0xFFF ? 0xFFF : i);
 
 482 static int u32_set_parms(struct tcf_proto *tp, unsigned long base,
 
 483                          struct tc_u_hnode *ht,
 
 484                          struct tc_u_knode *n, struct rtattr **tb,
 
 490         err = tcf_exts_validate(tp, tb, est, &e, &u32_ext_map);
 
 495         if (tb[TCA_U32_LINK-1]) {
 
 496                 u32 handle = *(u32*)RTA_DATA(tb[TCA_U32_LINK-1]);
 
 497                 struct tc_u_hnode *ht_down = NULL;
 
 499                 if (TC_U32_KEY(handle))
 
 503                         ht_down = u32_lookup_ht(ht->tp_c, handle);
 
 511                 ht_down = xchg(&n->ht_down, ht_down);
 
 517         if (tb[TCA_U32_CLASSID-1]) {
 
 518                 n->res.classid = *(u32*)RTA_DATA(tb[TCA_U32_CLASSID-1]);
 
 519                 tcf_bind_filter(tp, &n->res, base);
 
 522 #ifdef CONFIG_NET_CLS_IND
 
 523         if (tb[TCA_U32_INDEV-1]) {
 
 524                 int err = tcf_change_indev(tp, n->indev, tb[TCA_U32_INDEV-1]);
 
 529         tcf_exts_change(tp, &n->exts, &e);
 
 533         tcf_exts_destroy(tp, &e);
 
 537 static int u32_change(struct tcf_proto *tp, unsigned long base, u32 handle,
 
 541         struct tc_u_common *tp_c = tp->data;
 
 542         struct tc_u_hnode *ht;
 
 543         struct tc_u_knode *n;
 
 544         struct tc_u32_sel *s;
 
 545         struct rtattr *opt = tca[TCA_OPTIONS-1];
 
 546         struct rtattr *tb[TCA_U32_MAX];
 
 551                 return handle ? -EINVAL : 0;
 
 553         if (rtattr_parse_nested(tb, TCA_U32_MAX, opt) < 0)
 
 556         if ((n = (struct tc_u_knode*)*arg) != NULL) {
 
 557                 if (TC_U32_KEY(n->handle) == 0)
 
 560                 return u32_set_parms(tp, base, n->ht_up, n, tb, tca[TCA_RATE-1]);
 
 563         if (tb[TCA_U32_DIVISOR-1]) {
 
 564                 unsigned divisor = *(unsigned*)RTA_DATA(tb[TCA_U32_DIVISOR-1]);
 
 566                 if (--divisor > 0x100)
 
 568                 if (TC_U32_KEY(handle))
 
 571                         handle = gen_new_htid(tp->data);
 
 575                 ht = kmalloc(sizeof(*ht) + divisor*sizeof(void*), GFP_KERNEL);
 
 578                 memset(ht, 0, sizeof(*ht) + divisor*sizeof(void*));
 
 581                 ht->divisor = divisor;
 
 584                 ht->next = tp_c->hlist;
 
 586                 *arg = (unsigned long)ht;
 
 590         if (tb[TCA_U32_HASH-1]) {
 
 591                 htid = *(unsigned*)RTA_DATA(tb[TCA_U32_HASH-1]);
 
 592                 if (TC_U32_HTID(htid) == TC_U32_ROOT) {
 
 596                         ht = u32_lookup_ht(tp->data, TC_U32_HTID(htid));
 
 605         if (ht->divisor < TC_U32_HASH(htid))
 
 609                 if (TC_U32_HTID(handle) && TC_U32_HTID(handle^htid))
 
 611                 handle = htid | TC_U32_NODE(handle);
 
 613                 handle = gen_new_kid(ht, htid);
 
 615         if (tb[TCA_U32_SEL-1] == 0 ||
 
 616             RTA_PAYLOAD(tb[TCA_U32_SEL-1]) < sizeof(struct tc_u32_sel))
 
 619         s = RTA_DATA(tb[TCA_U32_SEL-1]);
 
 621         n = kmalloc(sizeof(*n) + s->nkeys*sizeof(struct tc_u32_key), GFP_KERNEL);
 
 625         memset(n, 0, sizeof(*n) + s->nkeys*sizeof(struct tc_u32_key));
 
 626 #ifdef CONFIG_CLS_U32_PERF
 
 627         n->pf = kmalloc(sizeof(struct tc_u32_pcnt) + s->nkeys*sizeof(u64), GFP_KERNEL);
 
 632         memset(n->pf, 0, sizeof(struct tc_u32_pcnt) + s->nkeys*sizeof(u64));
 
 635         memcpy(&n->sel, s, sizeof(*s) + s->nkeys*sizeof(struct tc_u32_key));
 
 642                 while (!(mask & 1)) {
 
 650 #ifdef CONFIG_CLS_U32_MARK
 
 651         if (tb[TCA_U32_MARK-1]) {
 
 652                 struct tc_u32_mark *mark;
 
 654                 if (RTA_PAYLOAD(tb[TCA_U32_MARK-1]) < sizeof(struct tc_u32_mark)) {
 
 655 #ifdef CONFIG_CLS_U32_PERF
 
 661                 mark = RTA_DATA(tb[TCA_U32_MARK-1]);
 
 662                 memcpy(&n->mark, mark, sizeof(struct tc_u32_mark));
 
 667         err = u32_set_parms(tp, base, ht, n, tb, tca[TCA_RATE-1]);
 
 669                 struct tc_u_knode **ins;
 
 670                 for (ins = &ht->ht[TC_U32_HASH(handle)]; *ins; ins = &(*ins)->next)
 
 671                         if (TC_U32_NODE(handle) < TC_U32_NODE((*ins)->handle))
 
 678                 *arg = (unsigned long)n;
 
 681 #ifdef CONFIG_CLS_U32_PERF
 
 688 static void u32_walk(struct tcf_proto *tp, struct tcf_walker *arg)
 
 690         struct tc_u_common *tp_c = tp->data;
 
 691         struct tc_u_hnode *ht;
 
 692         struct tc_u_knode *n;
 
 698         for (ht = tp_c->hlist; ht; ht = ht->next) {
 
 699                 if (ht->prio != tp->prio)
 
 701                 if (arg->count >= arg->skip) {
 
 702                         if (arg->fn(tp, (unsigned long)ht, arg) < 0) {
 
 708                 for (h = 0; h <= ht->divisor; h++) {
 
 709                         for (n = ht->ht[h]; n; n = n->next) {
 
 710                                 if (arg->count < arg->skip) {
 
 714                                 if (arg->fn(tp, (unsigned long)n, arg) < 0) {
 
 724 static int u32_dump(struct tcf_proto *tp, unsigned long fh,
 
 725                      struct sk_buff *skb, struct tcmsg *t)
 
 727         struct tc_u_knode *n = (struct tc_u_knode*)fh;
 
 728         unsigned char    *b = skb->tail;
 
 734         t->tcm_handle = n->handle;
 
 736         rta = (struct rtattr*)b;
 
 737         RTA_PUT(skb, TCA_OPTIONS, 0, NULL);
 
 739         if (TC_U32_KEY(n->handle) == 0) {
 
 740                 struct tc_u_hnode *ht = (struct tc_u_hnode*)fh;
 
 741                 u32 divisor = ht->divisor+1;
 
 742                 RTA_PUT(skb, TCA_U32_DIVISOR, 4, &divisor);
 
 744                 RTA_PUT(skb, TCA_U32_SEL,
 
 745                         sizeof(n->sel) + n->sel.nkeys*sizeof(struct tc_u32_key),
 
 748                         u32 htid = n->handle & 0xFFFFF000;
 
 749                         RTA_PUT(skb, TCA_U32_HASH, 4, &htid);
 
 752                         RTA_PUT(skb, TCA_U32_CLASSID, 4, &n->res.classid);
 
 754                         RTA_PUT(skb, TCA_U32_LINK, 4, &n->ht_down->handle);
 
 756 #ifdef CONFIG_CLS_U32_MARK
 
 757                 if (n->mark.val || n->mark.mask)
 
 758                         RTA_PUT(skb, TCA_U32_MARK, sizeof(n->mark), &n->mark);
 
 761                 if (tcf_exts_dump(skb, &n->exts, &u32_ext_map) < 0)
 
 764 #ifdef CONFIG_NET_CLS_IND
 
 766                         RTA_PUT(skb, TCA_U32_INDEV, IFNAMSIZ, n->indev);
 
 768 #ifdef CONFIG_CLS_U32_PERF
 
 769                 RTA_PUT(skb, TCA_U32_PCNT, 
 
 770                 sizeof(struct tc_u32_pcnt) + n->sel.nkeys*sizeof(u64),
 
 775         rta->rta_len = skb->tail - b;
 
 776         if (TC_U32_KEY(n->handle))
 
 777                 if (tcf_exts_dump_stats(skb, &n->exts, &u32_ext_map) < 0)
 
 782         skb_trim(skb, b - skb->data);
 
 786 static struct tcf_proto_ops cls_u32_ops = {
 
 789         .classify       =       u32_classify,
 
 791         .destroy        =       u32_destroy,
 
 794         .change         =       u32_change,
 
 795         .delete         =       u32_delete,
 
 798         .owner          =       THIS_MODULE,
 
 801 static int __init init_u32(void)
 
 803         printk("u32 classifier\n");
 
 804 #ifdef CONFIG_CLS_U32_PERF
 
 805         printk("    Perfomance counters on\n");
 
 807 #ifdef CONFIG_NET_CLS_POLICE
 
 808         printk("    OLD policer on \n");
 
 810 #ifdef CONFIG_NET_CLS_IND
 
 811         printk("    input device check on \n");
 
 813 #ifdef CONFIG_NET_CLS_ACT
 
 814         printk("    Actions configured \n");
 
 816         return register_tcf_proto_ops(&cls_u32_ops);
 
 819 static void __exit exit_u32(void) 
 
 821         unregister_tcf_proto_ops(&cls_u32_ops);
 
 824 module_init(init_u32)
 
 825 module_exit(exit_u32)
 
 826 MODULE_LICENSE("GPL");