Fix date sorting for rss plugins
[rbot] / data / rbot / plugins / rss.rb
1 # RSS feed plugin for RubyBot\r
2 # (c) 2004 Stanislav Karchebny <berkus@madfire.net>\r
3 # (c) 2005 Ian Monroe <ian@monroe.nu>\r
4 # (c) 2005 Mark Kretschmann <markey@web.de>\r
5 # Licensed under MIT License.\r
6 \r
7 require 'rss/parser'\r
8 require 'rss/1.0'\r
9 require 'rss/2.0'\r
10 require 'rss/dublincore'\r
11 # begin\r
12 #   require 'rss/dublincore/2.0'\r
13 # rescue\r
14 #   warning "Unable to load RSS libraries, RSS plugin functionality crippled"\r
15 # end\r
16 \r
17 class ::String\r
18   def shorten(limit)\r
19     if self.length > limit\r
20       self+". " =~ /^(.{#{limit}}[^.!;?]*[.!;?])/mi\r
21       return $1\r
22     end\r
23     self\r
24   end\r
25 \r
26   def riphtml\r
27     self.gsub(/<[^>]+>/, '').gsub(/&amp;/,'&').gsub(/&quot;/,'"').gsub(/&lt;/,'<').gsub(/&gt;/,'>').gsub(/&ellip;/,'...').gsub(/&apos;/, "'").gsub("\n",'')\r
28   end\r
29 \r
30   def mysqlize\r
31     self.gsub(/'/, "''")\r
32   end\r
33 end\r
34 \r
35 class ::RssBlob\r
36   attr :url\r
37   attr :handle\r
38   attr :type\r
39   attr :watchers\r
40 \r
41   def initialize(url,handle=nil,type=nil,watchers=[])\r
42     @url = url\r
43     if handle\r
44       @handle = handle\r
45     else\r
46       @handle = url\r
47     end\r
48     @type = type\r
49     @watchers = watchers\r
50   end\r
51 \r
52   def watched?\r
53     !@watchers.empty?\r
54   end\r
55 \r
56   def watched_by?(who)\r
57     @watchers.include?(who)\r
58   end\r
59 \r
60   def add_watch(who)\r
61     if watched_by?(who)\r
62       return nil\r
63     end\r
64     @watchers << who unless watched_by?(who)\r
65     return who\r
66   end\r
67 \r
68   def rm_watch(who)\r
69     @watchers.delete(who)\r
70   end\r
71 \r
72   def to_a\r
73     [@handle,@url,@type,@watchers]\r
74   end\r
75 \r
76   def to_s(watchers=false)\r
77     if watchers\r
78       a = self.to_a.flatten\r
79     else\r
80       a = self.to_a[0,3]\r
81     end\r
82     a.join(" | ")\r
83   end\r
84 end\r
85 \r
86 class RSSFeedsPlugin < Plugin\r
87   BotConfig.register BotConfigIntegerValue.new('rss.head_max',\r
88     :default => 30, :validate => Proc.new{|v| v > 0 && v < 200},\r
89     :desc => "How many characters to use of a RSS item header")\r
90 \r
91   BotConfig.register BotConfigIntegerValue.new('rss.text_max',\r
92     :default => 90, :validate => Proc.new{|v| v > 0 && v < 400},\r
93     :desc => "How many characters to use of a RSS item text")\r
94 \r
95   BotConfig.register BotConfigIntegerValue.new('rss.thread_sleep',\r
96     :default => 300, :validate => Proc.new{|v| v > 30},\r
97     :desc => "How many characters to use of a RSS item text")\r
98 \r
99   @@watchThreads = Hash.new\r
100   @@mutex = Mutex.new\r
101 \r
102   def initialize\r
103     super\r
104     kill_threads\r
105     if @registry.has_key?(:feeds)\r
106       @feeds = @registry[:feeds]\r
107     else\r
108       @feeds = Hash.new\r
109     end\r
110     rewatch_rss\r
111   end\r
112 \r
113   def watchlist\r
114     @feeds.select { |h, f| f.watched? }\r
115   end\r
116 \r
117   def cleanup\r
118     kill_threads\r
119   end\r
120 \r
121   def save\r
122     @registry[:feeds] = @feeds\r
123   end\r
124 \r
125   def kill_threads\r
126     @@mutex.synchronize {\r
127       # Abort all running threads.\r
128       @@watchThreads.each { |url, thread|\r
129         debug "Killing thread for #{url}"\r
130         thread.kill\r
131       }\r
132       @@watchThreads = Hash.new\r
133     }\r
134   end\r
135 \r
136   def help(plugin,topic="")\r
137     case topic\r
138     when "show"\r
139       "rss show #{Bold}handle#{Bold} [#{Bold}limit#{Bold}] : show #{Bold}limit#{Bold} (default: 5, max: 15) entries from rss #{Bold}handle#{Bold}; #{Bold}limit#{Bold} can also be in the form a..b, to display a specific range of items"\r
140     when "list"\r
141       "rss list [#{Bold}handle#{Bold}] : list all rss feeds (matching #{Bold}handle#{Bold})"\r
142     when "watched"\r
143       "rss watched [#{Bold}handle#{Bold}] : list all watched rss feeds (matching #{Bold}handle#{Bold})"\r
144     when "add"\r
145       "rss add #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : add a new rss called #{Bold}handle#{Bold} from url #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
146     when /^(del(ete)?|rm)$/\r
147       "rss del(ete)|rm #{Bold}handle#{Bold} : delete rss feed #{Bold}handle#{Bold}"\r
148     when "replace"\r
149       "rss replace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : try to replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold}); only works if nobody else is watching it"\r
150     when "forcereplace"\r
151       "rss forcereplace #{Bold}handle#{Bold} #{Bold}url#{Bold} [#{Bold}type#{Bold}] : replace the url of rss called #{Bold}handle#{Bold} with #{Bold}url#{Bold} (of type #{Bold}type#{Bold})"\r
152     when "watch"\r
153       "rss watch #{Bold}handle#{Bold} [#{Bold}url#{Bold} [#{Bold}type#{Bold}]] : watch rss #{Bold}handle#{Bold} for changes; when the other parameters are present, it will be created if it doesn't exist yet"\r
154     when /(un|rm)watch/\r
155       "rss unwatch|rmwatch #{Bold}handle#{Bold} : stop watching rss #{Bold}handle#{Bold} for changes"\r
156     when "rewatch"\r
157       "rss rewatch : restart threads that watch for changes in watched rss"\r
158     else\r
159       "manage RSS feeds: rss show|list|watched|add|del(ete)|rm|(force)replace|watch|unwatch|rmwatch|rewatch"\r
160     end\r
161   end\r
162 \r
163   def report_problem(report, e=nil, m=nil)\r
164     if m && m.respond_to?(:reply)\r
165       m.reply report\r
166     else\r
167       warning report\r
168     end\r
169     if e\r
170       debug e.inspect\r
171       debug e.backtrace.join("\n") if e.respond_to?(:backtrace)\r
172     end\r
173   end\r
174 \r
175   def show_rss(m, params)\r
176     handle = params[:handle]\r
177     lims = params[:limit].to_s.match(/(\d+)(?:..(\d+))?/)\r
178     debug lims.to_a.inspect\r
179     if lims[2]\r
180       ll = [[lims[1].to_i-1,lims[2].to_i-1].min,  0].max\r
181       ul = [[lims[1].to_i-1,lims[2].to_i-1].max, 14].min\r
182       rev = lims[1].to_i > lims[2].to_i\r
183     else\r
184       ll = 0\r
185       ul = [[lims[1].to_i-1, 1].max, 14].min\r
186       rev = false\r
187     end\r
188 \r
189     feed = @feeds.fetch(handle, nil)\r
190     unless feed\r
191       m.reply "I don't know any feeds named #{handle}"\r
192       return\r
193     end\r
194 \r
195     m.reply "lemme fetch it..."\r
196     title = items = nil\r
197     @@mutex.synchronize {\r
198       title, items = fetchRss(feed, m)\r
199     }\r
200     return unless items\r
201 \r
202     # We sort the feeds in freshness order (newer ones first)\r
203     items = freshness_sort(items)\r
204     disp = items[ll..ul]\r
205     disp.reverse! if rev\r
206 \r
207     m.reply "Channel : #{title}"\r
208     disp.each do |item|\r
209       printFormattedRss(feed, item, {:places=>[m.replyto],:handle=>nil,:date=>true})\r
210     end\r
211   end\r
212 \r
213   def itemDate(item,ex=nil)\r
214     return item.pubDate if item.respond_to?(:pubDate)\r
215     return item.date if item.respond_to?(:date)\r
216     return ex\r
217   end\r
218 \r
219   def freshness_sort(items)\r
220     notime = Time.at(0)\r
221     items.sort { |a, b|\r
222       itemDate(b, notime) <=> itemDate(a, notime)\r
223     }\r
224   end\r
225 \r
226   def list_rss(m, params)\r
227     wanted = params[:handle]\r
228     reply = String.new\r
229     @@mutex.synchronize {\r
230       @feeds.each { |handle, feed|\r
231         next if wanted and !handle.match(wanted)\r
232         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})"\r
233         (reply << " (watched)") if feed.watched_by?(m.replyto)\r
234         reply << "\n"\r
235       }\r
236     }\r
237     if reply.empty?\r
238       reply = "no feeds found"\r
239       reply << " matching #{wanted}" if wanted\r
240     end\r
241     m.reply reply\r
242   end\r
243 \r
244   def watched_rss(m, params)\r
245     wanted = params[:handle]\r
246     reply = String.new\r
247     @@mutex.synchronize {\r
248       watchlist.each { |handle, feed|\r
249         next if wanted and !handle.match(wanted)\r
250         next unless feed.watched_by?(m.replyto)\r
251         reply << "#{feed.handle}: #{feed.url} (in format: #{feed.type ? feed.type : 'default'})\n"\r
252       }\r
253     }\r
254     if reply.empty?\r
255       reply = "no watched feeds"\r
256       reply << " matching #{wanted}" if wanted\r
257     end\r
258     m.reply reply\r
259   end\r
260 \r
261   def add_rss(m, params, force=false)\r
262     handle = params[:handle]\r
263     url = params[:url]\r
264     unless url.match(/https?/)\r
265       m.reply "I only deal with feeds from HTTP sources, so I can't use #{url} (maybe you forgot the handle?)"\r
266       return\r
267     end\r
268     type = params[:type]\r
269     if @feeds.fetch(handle, nil) && !force\r
270       m.reply "There is already a feed named #{handle} (URL: #{@feeds[handle].url})"\r
271       return\r
272     end\r
273     unless url\r
274       m.reply "You must specify both a handle and an url to add an RSS feed"\r
275       return\r
276     end\r
277     @@mutex.synchronize {\r
278       @feeds[handle] = RssBlob.new(url,handle,type)\r
279     }\r
280     reply = "Added RSS #{url} named #{handle}"\r
281     if type\r
282       reply << " (format: #{type})"\r
283     end\r
284     m.reply reply\r
285     return handle\r
286   end\r
287 \r
288   def del_rss(m, params, pass=false)\r
289     feed = unwatch_rss(m, params, true)\r
290     if feed.watched?\r
291       m.reply "someone else is watching #{feed.handle}, I won't remove it from my list"\r
292       return\r
293     end\r
294     @@mutex.synchronize {\r
295       @feeds.delete(feed.handle)\r
296     }\r
297     m.okay unless pass\r
298     return\r
299   end\r
300 \r
301   def replace_rss(m, params)\r
302     handle = params[:handle]\r
303     if @feeds.key?(handle)\r
304       del_rss(m, {:handle => handle}, true)\r
305     end\r
306     if @feeds.key?(handle)\r
307       m.reply "can't replace #{feed.handle}"\r
308     else\r
309       add_rss(m, params, true)\r
310     end\r
311   end\r
312 \r
313   def forcereplace_rss(m, params)\r
314     add_rss(m, params, true)\r
315   end\r
316 \r
317   def watch_rss(m, params)\r
318     handle = params[:handle]\r
319     url = params[:url]\r
320     type = params[:type]\r
321     if url\r
322       add_rss(m, params)\r
323     end\r
324     feed = nil\r
325     @@mutex.synchronize {\r
326       feed = @feeds.fetch(handle, nil)\r
327     }\r
328     if feed\r
329       @@mutex.synchronize {\r
330         if feed.add_watch(m.replyto)\r
331           watchRss(feed, m)\r
332           m.okay\r
333         else\r
334           m.reply "Already watching #{feed.handle}"\r
335         end\r
336       }\r
337     else\r
338       m.reply "Couldn't watch feed #{handle} (no such feed found)"\r
339     end\r
340   end\r
341 \r
342   def unwatch_rss(m, params, pass=false)\r
343     handle = params[:handle]\r
344     unless @feeds.has_key?(handle)\r
345       m.reply("dunno that feed")\r
346       return\r
347     end\r
348     feed = @feeds[handle]\r
349     if feed.rm_watch(m.replyto)\r
350       m.reply "#{m.replyto} has been removed from the watchlist for #{feed.handle}"\r
351     else\r
352       m.reply("#{m.replyto} wasn't watching #{feed.handle}") unless pass\r
353     end\r
354     if !feed.watched?\r
355       @@mutex.synchronize {\r
356         if @@watchThreads[handle].kind_of? Thread\r
357           @@watchThreads[handle].kill\r
358           debug "rmwatch: Killed thread for #{handle}"\r
359           @@watchThreads.delete(handle)\r
360         end\r
361       }\r
362     end\r
363     return feed\r
364   end\r
365 \r
366   def rewatch_rss(m=nil)\r
367     kill_threads\r
368 \r
369     # Read watches from list.\r
370     watchlist.each{ |handle, feed|\r
371       watchRss(feed, m)\r
372     }\r
373     m.okay if m\r
374   end\r
375 \r
376   private\r
377   def watchRss(feed, m=nil)\r
378     if @@watchThreads.has_key?(feed.handle)\r
379       report_problem("watcher thread for #{feed.handle} is already running", nil, m)\r
380       return\r
381     end\r
382     @@watchThreads[feed.handle] = Thread.new do\r
383       debug "watcher for #{feed} started"\r
384       oldItems = []\r
385       firstRun = true\r
386       failures = 0\r
387       loop do\r
388         begin\r
389           debug "fetching #{feed}"\r
390           title = newItems = nil\r
391           @@mutex.synchronize {\r
392             title, newItems = fetchRss(feed)\r
393           }\r
394           unless newItems\r
395             debug "no items in feed #{feed}"\r
396             failures +=1\r
397           else\r
398             debug "Checking if new items are available for #{feed}"\r
399             if firstRun\r
400               debug "First run, we'll see next time"\r
401               firstRun = false\r
402             else\r
403               otxt = oldItems.map { |item| item.to_s }\r
404               dispItems = newItems.reject { |item|\r
405                 otxt.include?(item.to_s)\r
406               }\r
407               if dispItems.length > 0\r
408                 debug "Found #{dispItems.length} new items in #{feed}"\r
409                 dispItems.each { |item|\r
410                   @@mutex.synchronize {\r
411                     printFormattedRss(feed, item)\r
412                   }\r
413                 }\r
414               else\r
415                 debug "No new items found in #{feed}"\r
416               end\r
417             end\r
418             oldItems = newItems.dup\r
419           end\r
420         rescue Exception => e\r
421           error "Error watching #{feed}: #{e.inspect}"\r
422           debug e.backtrace.join("\n")\r
423           failures += 1\r
424         end\r
425 \r
426         seconds = @bot.config['rss.thread_sleep'] * (failures + 1)\r
427         seconds += seconds * (rand(100)-50)/100\r
428         debug "watcher for #{feed} going to sleep #{seconds} seconds.."\r
429         sleep seconds\r
430       end\r
431     end\r
432   end\r
433 \r
434   def printFormattedRss(feed, item, opts=nil)\r
435     places = feed.watchers\r
436     handle = "::#{feed.handle}:: "\r
437     date = String.new\r
438     if opts\r
439       places = opts[:places] if opts.key?(:places)\r
440       handle = opts[:handle].to_s if opts.key?(:handle)\r
441       if opts.key?(:date) && opts[:date]\r
442         if item.respond_to?(:pubDate) \r
443           if item.pubDate.class <= Time\r
444             date = item.pubDate.strftime("%Y/%m/%d %H.%M.%S")\r
445           else\r
446             date = item.pubDate.to_s\r
447           end\r
448         elsif  item.respond_to?(:date)\r
449           if item.date.class <= Time\r
450             date = item.date.strftime("%Y/%m/%d %H.%M.%S")\r
451           else\r
452             date = item.date.to_s\r
453           end\r
454         else\r
455           date = "(no date)"\r
456         end\r
457         date += " :: "\r
458       end\r
459     end\r
460     title = "#{Bold}#{item.title.chomp.riphtml}#{Bold}" if item.title\r
461     desc = item.description.gsub(/\s+/,' ').strip.riphtml.shorten(@bot.config['rss.text_max']) if item.description\r
462     link = item.link.chomp if item.link\r
463     places.each { |loc|\r
464       case feed.type\r
465       when 'blog'\r
466         @bot.say loc, "#{handle}#{date}#{item.category.content} blogged at #{link}"\r
467         @bot.say loc, "#{handle}#{title} - #{desc}"\r
468       when 'forum'\r
469         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
470       when 'wiki'\r
471         @bot.say loc, "#{handle}#{date}#{item.title} has been edited by #{item.dc_creator}. #{desc} #{link}"\r
472       when 'gmame'\r
473         @bot.say loc, "#{handle}#{date}Message #{title} sent by #{item.dc_creator}. #{desc}"\r
474       when 'trac'\r
475         @bot.say loc, "#{handle}#{date}#{title} @ #{link}"\r
476         unless item.title =~ /^Changeset \[(\d+)\]/\r
477           @bot.say loc, "#{handle}#{date}#{desc}"\r
478         end\r
479       else\r
480         @bot.say loc, "#{handle}#{date}#{title}#{' @ ' if item.title && item.link}#{link}"\r
481       end\r
482     }\r
483   end\r
484 \r
485   def fetchRss(feed, m=nil)\r
486     begin\r
487       # Use 60 sec timeout, cause the default is too low\r
488       xml = @bot.httputil.get_cached(feed.url,60,60)\r
489     rescue URI::InvalidURIError, URI::BadURIError => e\r
490       report_problem("invalid rss feed #{feed.url}", e, m)\r
491       return\r
492     rescue => e\r
493       report_problem("error getting #{feed.url}", e, m)\r
494       return\r
495     end\r
496     debug "fetched #{feed}"\r
497     unless xml\r
498       report_problem("reading feed #{feed} failed", nil, m)\r
499       return\r
500     end\r
501 \r
502     begin\r
503       ## do validate parse\r
504       rss = RSS::Parser.parse(xml)\r
505       debug "parsed #{feed}"\r
506     rescue RSS::InvalidRSSError\r
507       ## do non validate parse for invalid RSS 1.0\r
508       begin\r
509         rss = RSS::Parser.parse(xml, false)\r
510       rescue RSS::Error => e\r
511         report_problem("parsing rss stream failed, whoops =(", e, m)\r
512         return\r
513       end\r
514     rescue RSS::Error => e\r
515       report_problem("parsing rss stream failed, oioi", e, m)\r
516       return\r
517     rescue => e\r
518       report_problem("processing error occured, sorry =(", e, m)\r
519       return\r
520     end\r
521     items = []\r
522     if rss.nil?\r
523       report_problem("#{feed} does not include RSS 1.0 or 0.9x/2.0", nil, m)\r
524     else\r
525       begin\r
526         rss.output_encoding = 'UTF-8'\r
527       rescue RSS::UnknownConvertMethod => e\r
528         report_problem("bah! something went wrong =(", e, m)\r
529         return\r
530       end\r
531       rss.channel.title ||= "Unknown"\r
532       title = rss.channel.title\r
533       rss.items.each do |item|\r
534         item.title ||= "Unknown"\r
535         items << item\r
536       end\r
537     end\r
538 \r
539     if items.empty?\r
540       report_problem("no items found in the feed, maybe try weed?", e, m)\r
541       return\r
542     end\r
543     return [title, items]\r
544   end\r
545 end\r
546 \r
547 plugin = RSSFeedsPlugin.new\r
548 \r
549 plugin.map 'rss show :handle :limit',\r
550   :action => 'show_rss',\r
551   :requirements => {:limit => /^\d+(?:\.\.\d+)?$/},\r
552   :defaults => {:limit => 5}\r
553 plugin.map 'rss list :handle',\r
554   :action => 'list_rss',\r
555   :defaults =>  {:handle => nil}\r
556 plugin.map 'rss watched :handle',\r
557   :action => 'watched_rss',\r
558   :defaults =>  {:handle => nil}\r
559 plugin.map 'rss add :handle :url :type',\r
560   :action => 'add_rss',\r
561   :defaults => {:type => nil}\r
562 plugin.map 'rss del :handle',\r
563   :action => 'del_rss'\r
564 plugin.map 'rss delete :handle',\r
565   :action => 'del_rss'\r
566 plugin.map 'rss rm :handle',\r
567   :action => 'del_rss'\r
568 plugin.map 'rss replace :handle :url :type',\r
569   :action => 'replace_rss',\r
570   :defaults => {:type => nil}\r
571 plugin.map 'rss forcereplace :handle :url :type',\r
572   :action => 'forcereplace_rss',\r
573   :defaults => {:type => nil}\r
574 plugin.map 'rss watch :handle :url :type',\r
575   :action => 'watch_rss',\r
576   :defaults => {:url => nil, :type => nil}\r
577 plugin.map 'rss unwatch :handle',\r
578   :action => 'unwatch_rss'\r
579 plugin.map 'rss rmwatch :handle',\r
580   :action => 'unwatch_rss'\r
581 plugin.map 'rss rewatch :handle',\r
582   :action => 'rewatch_rss'\r
583 \r