Skip to content

Commit

Permalink
Issue arrix#2 : Special Chars getting butchered
Browse files Browse the repository at this point in the history
Before :
Readability: ---DOM created
Braquage cette nuit � Saint-Pierre <div id="corps"><p><p>Deux hommes, arriv�s � bord d’un scooter, ont fait irruption cette nuit vers 3h30 chez un marchand de fruits et l�gumes ouvert 24h/24 � Saint-Pierre. Ils auraient alors menac� d’une arme � feu le g�rant en r�clamant la caisse. Mais ne seraient repartis qu’avec la balance, croyant sans doute qu’elle pouvait contenir de l’argent. Pour le magasin, le pr�judice �conomique est donc plut�t l�ger. Mais si personne n’a �t� bless�, le braqu� est �videmment choqu�.</p>

After:
Readability: ---DOM created
Braquage cette nuit à Saint-Pierre <div id="corps"><p><p>Deux hommes, arrivés à bord d’un scooter, ont fait irruption cette nuit vers 3h30 chez un marchand de fruits et légumes ouvert 24h/24 à Saint-Pierre. Ils auraient alors menacé d’une arme à feu le gérant en réclamant la caisse. Mais ne seraient repartis qu’avec la balance, croyant sans doute qu’elle pouvait contenir de l’argent. Pour le magasin, le préjudice économique est donc plutôt léger. Mais si personne n’a été blessé, le braqué est évidemment choqué.</p>

<p><strong>Plus d’informations demain dans votre Journal de l’île.</strong></p></p></div>

if you use request (from mikeal for example), you will just have to do this :

var readability = require('../lib/readability');
var url = "http://www.clicanoo.re/322520-braquage-cette-nuit-a-saint-pierre.html";
var request = require('request');
request({url:url, 'encoding':'binary'}, function (error, response, html) {
  var content_type = response['headers']['content-type'].split('=');
  var encoding = content_type[1].toUpperCase();
  if (!error && response.statusCode == 200) {
    readability.parse(html, url, {encoding:encoding}, function(result) {
   		console.log(result.title, result.content);
	});
  }
});
  • Loading branch information
Sébastien De Bollivier committed Apr 28, 2012
1 parent 719da2e commit 2ab2c35
Show file tree
Hide file tree
Showing 2 changed files with 12 additions and 4 deletions.
11 changes: 8 additions & 3 deletions lib/readability.js
Original file line number Diff line number Diff line change
@@ -1,6 +1,7 @@
/*jslint undef: true, nomen: true, eqeqeq: true, plusplus: true, newcap: true, immed: true, browser: true, devel: true, passfail: false */
/*global window: false, readConvertLinksToFootnotes: false, readStyle: false, readSize: false, readMargin: false, Typekit: false, ActiveXObject: false */

var Buffer = require('buffer').Buffer;
var Iconv = require('iconv').Iconv;
var dbg = (typeof console !== 'undefined') ? function(s) {
if (readability.debugging) {
console.log("Readability: " + s);
Expand Down Expand Up @@ -2225,7 +2226,11 @@ exports.parse = function parse(theHtml, url, options, callback) {
removeClassNames: true
};
options = Utils.extend({}, defaultOptions, options);

if(options.encoding && options.encoding != 'utf8') {
body = new Buffer(theHtml, 'binary');
iconv = new Iconv(options.encoding, 'utf8');
theHtml = iconv.convert(body).toString('utf8');
}
var startTime = new Date().getTime();
//dbg(html);
var html = theHtml.replace(/<script[^>]*>([\s\S]*?)<\/script>/gi, '');
Expand All @@ -2239,7 +2244,7 @@ exports.parse = function parse(theHtml, url, options, callback) {
features : {
FetchExternalResources : [],
ProcessExternalResources : false
}
},
};

function createDocWithHTMLParser() {
Expand Down
5 changes: 4 additions & 1 deletion package.json
Original file line number Diff line number Diff line change
Expand Up @@ -42,7 +42,10 @@
"dependencies": {
"mjsunit.runner": ">=0.1.0",
"jsdom": ">=0.1.21",
"htmlparser": ">=1.7.3"
"htmlparser": ">=1.7.3",
"html5":">0.1",
"main": "iconv",
"iconv":">=1.1.3"
},
"engines" : { "node" : ">=0.2.5" },
"directories": {
Expand Down

0 comments on commit 2ab2c35

Please sign in to comment.