Пишу, по большей части, про историю, свою жизнь и немного про программирование.

Feedparser и санитайзер в Python

Странно, но в модуле feedparser для Python не нашёл способа как выключить внутренний санитайзер. Зачем его выключать? Во-первых, он плохенький (например, просто убивает все inline-стили), во-вторых, понадобилось брать RSS из доверенного источника, где санитайзить нечего.

Сделал monkey patch:

import feedparser
feedparser._sanitizeHTML = lambda html, encoding: html
5 комментариев
arty (arty.name) 2009

может, вернее было бы унаследоваться от него?

gaius-julius.livejournal.com 2009

Комментарий для arty.name:

_sanitizeHTML это не метод, а feedparser — не класс, а модуль. К сожелению, от него нельзя так просто отнаследоваться.

Евгений, я наблюдаю забавную штуку в  http://feedparser.googlecode.com/svn/trunk/feedparser/feedparser.py

If you want feedparser to automatically sanitize all potentially unsafe

HTML content, set this to 1.

SANITIZE_HTML = 1

Евгений Степанищев (bolknote.ru) 2009

Комментарий для arty.name:

Зачем?

Евгений Степанищев (bolknote.ru) 2009

Комментарий для gaius-julius.livejournal.com:

OMG, спасибо! Я что-то пропустил эту переменную, глаз замылился.

Евгений Степанищев (bolknote.ru) 2009

Комментарий для gaius-julius.livejournal.com:

В Python, кстати, всё класс-объект.