delicious2wp

#!/usr/bin/perl -W
# Read export file from del.icio.us, extract HREF and convert to WordPress
# Elmar Klausmeier, 30-Aug-2013
# Elmar Klausmeier, 01-Jan-2015

use strict;
use POSIX qw(strftime);
use Getopt::Std;

my %opts = ('d' => 0, 'n' => 0, 'o' => 0);
getopts('dn:o:',\%opts);
my $n = (($opts{'n'} > 0) ? $opts{'n'} : 0);
my $offset = (($opts{'o'} > 0) ? $opts{'o'} : 0);


my ($title,$tags,$taglines,$prev,$out) = ("","","","","");
my @add_date = ();
my ($add_date_rfc,$add_date_ymd) = ("","");
my ($links,$post_id) = (0,0);

print << "EOF";
<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0" xmlns:excerpt="http://wordpress.org/export/1.2/excerpt/"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:wp="http://wordpress.org/export/1.2/">
<channel>
<title>Collected Links</title>
<link>http://klmlinks.wordpress.com</link>
<language>de</language>
<wp:wxr_version>1.2</wp:wxr_version>
<wp:author>
  <wp:author_login>eklausmeier</wp:author_login>
  <wp:author_email>Elmar.Klausmeier\@gmail.com</wp:author_email>
  <wp:author_display_name><![CDATA[eklausmeier]]></wp:author_display_name>
  <wp:author_first_name><![CDATA[]]></wp:author_first_name>
  <wp:author_last_name><![CDATA[]]></wp:author_last_name>
</wp:author>
EOF

while (<>) {
	($tags,@add_date) = ("",());
	chomp;
	s/\s+$//;	# rtrim

	s/\xC2\xAE/&copy;/g;	# copyright
	s/\xE2\x84\xA2/&trade;/g;	# trademark
	s/\xC3\xBC/&uuml;/g;	# klein ue
	s/\xE2\x80\x99/'/g;	# apostroph
	s/\xC3\xA4/&auml;/g;	# klein ae
	s/\xE4\xA4/&auml;/g;	# klein ae
	s/\xE4\xB6/&ouml;/g;	# klein oe
	s/\xC3\xB6/&ouml;/g;	# klein oe
	s/\xC3\x9C/&Uuml;/g;	# gross Ue
	s/\xC3\x9F/&szlig;/g;	# szet
	s/\xC2\xA0//g;	# backquote?
	s/\xC3\xA9/&#233;/g;	# e apostophe
	s/\xE4\xA9/&#233;/g;	# e apostophe
	s/\xC3\xA8/&egrave;/g;	# e accent grave
	s/ & / &amp; /g;	# ampersand

	#print substr($_,4) . "\n" if /^<DT><A HREF=/;

	if (/^<\/DL>/) {
		last;
	} elsif (/^<DT><A HREF=/) {
		print "]]></content:encoded>\n$taglines</item>\n" if ($links > 0);
		$taglines = "";
		++$links;	# have now seen the first <DT>, i.e., first link
		$post_id = $offset + $links;
		last if ($n > 0  &&  $links > $n);
		if (/ ADD_DATE="(\d+)"/) {
			@add_date = localtime($1);
			$add_date_rfc = strftime("%a %b %d %H:%M:%S CET %Y", @add_date);
			$add_date_ymd = strftime("%Y-%m-%d %H:%M:%S", @add_date);
		}
		s/^<DT>//;	# strip <DT>
		s/<A HREF=/<a href=/;	# upercase
		s/<\/A>$/<\/a>/;	# uppercase
		s/ PRIVATE="0"//;	# drop useless stuff
		$tags = $1 if (/TAGS="([äöüßÄÖÜÃ„Ã–ÃœÃ¤Ã¶Ã¼ÃŸÃ©Ã¨Ã¹Ã§Ã¸ \w:\@\/\(\)\#=\-\+\!\.,\'\&]*)"/);
		$title = $1 if (/<a href=.+">(.*)<\/a>/);
		#$tags =~ s/,/, /g;
		foreach ( split(/,/,$tags) ) {
			my $tag = $_;
			my $mtag = $tag;
			$mtag =~ s/\s+/\-/g;	# no space in nicename
			$taglines .= sprintf("<category domain=\"post_tag\" nicename=\"%s\"><![CDATA[%s]]></category>\n",
				lc $mtag,$tag);
		}
		$taglines .= "<wp:post_id>$post_id</wp:post_id>\n"
			. "<wp:post_date>$add_date_ymd</wp:post_date>\n"
			. "<wp:post_name>$title</wp:post_name>\n"
			. "<wp:status>publish</wp:status>\n"
			. "<wp:post_type>post</wp:post_type>\n"
			. "<category domain=\"post_format\" nicename=\"post-format-link\"><![CDATA[Link]]></category>\n"
			. "<category domain=\"category\" nicename=\"uncategorized\"><![CDATA[Uncategorized]]></category>\n";
		# drop TAGS stuff
		s/ TAGS="[äöüßÄÖÜÃ„Ã–ÃœÃ¤Ã¶Ã¼ÃŸÃ©Ã¨Ã¹Ã§Ã¸ \w:\@\/\(\)\#=\-\+\!\.,\'\&]*"//;
		s/ ADD_DATE="\d+"//;	# drop ADD_DATE, as we have already processed this
		$out = "<item>\n"
			. "<title>$title</title>\n"
			. "<pubDate>$add_date_rfc</pubDate>\n"
			. "<dc:creator>eklausmeier</dc:creator>\n"
			. "<description/>\n"
			. "<content:encoded><![CDATA[$_\n";
		print $out if ($out ne $prev);
		$prev = $out;	# store current output, to later compare with previous
	} elsif ($links > 0) {
		if (/^<DD>/) {
			# Strip of <DD> (4 chars): This is the text part
			print substr($_,4);
		} else {
			print "$_<p>\n";	# actual text might span multiple lines
		}
	}
}


print "]]></content:encoded>\n$taglines</item>\n" if (length($taglines) > 0);

print << "EOF";
</channel>
</rss>
EOF


# Dead code
#	s/\xC2\xAE//g;	# copyright
#	s/\xE2\x84\xA2//g;	# trademark
#	s/\xC3\xBC/ü/g;	# klein ue
#	s/\xE2\x80\x99/'/g;	# apostroph
#	s/\xC3\xA4/ä/g;	# klein ae
#	s/\xE4\xA4/ä/g;	# klein ae
#	s/\xE4\xB6/ö/g;	# klein oe
#	s/\xC3\xB6/ö/g;	# klein oe
#	s/\xC3\x9C/Ü/g;	# gross Ue
#	s/\xC3\x9F/ß/g;	# szet
#	s/\xC2\xA0//g;	# backquote?
#	s/\xC3\xA9/&#233;/g;	# e apostophe
#	s/\xE4\xA9/&#233;/g;	# e apostophe
#	s/\xC3\xA8/è/g;	# e accent grave