0
|
1 |
#!/usr/bin/perl
|
|
2 |
|
|
3 |
use utf8;
|
|
4 |
|
5
|
5 |
binmode STDOUT, ":utf8";
|
0
|
6 |
|
5
|
7 |
$unua_vortonumero = 2;
|
|
8 |
$lasta_vortonumero = 50925;
|
|
9 |
|
|
10 |
if (scalar(@ARGV) != 1) {
|
2
|
11 |
print "Unua parametro: dosierujo de la html dosieroj\n";
|
|
12 |
exit;
|
|
13 |
}
|
0
|
14 |
$origino = $ARGV[0];
|
|
15 |
|
|
16 |
# States
|
|
17 |
$s_komenco = 0;
|
|
18 |
$s_nomo = 1;
|
5
|
19 |
$s_antaŭdifinoj = 2;
|
|
20 |
$s_difinoj = 3;
|
|
21 |
$s_fino = 4;
|
|
22 |
|
|
23 |
sub elhtmligi {
|
|
24 |
$ĉeno = $_[0];
|
|
25 |
|
|
26 |
$ĉeno =~ s/<u><i><b>/[/g;
|
|
27 |
$ĉeno =~ s/<\/b><\/i><\/u>/]/g;
|
|
28 |
|
|
29 |
$ĉeno =~ s/ĉ/ĉ/g;
|
|
30 |
|
|
31 |
$ĉeno =~ s/ĉ/ĉ/g;
|
|
32 |
$ĉeno =~ s/ĝ/ĝ/g;
|
|
33 |
$ĉeno =~ s/ĥ/ĥ/g;
|
|
34 |
$ĉeno =~ s/ĵ/ĵ/g;
|
|
35 |
$ĉeno =~ s/ŝ/ŝ/g;
|
|
36 |
$ĉeno =~ s/ŭ/ŭ/g;
|
|
37 |
|
|
38 |
$ĉeno =~ s/Ĉ/Ĉ/g;
|
|
39 |
$ĉeno =~ s/Ĝ/Ĝ/g;
|
|
40 |
$ĉeno =~ s/Ĥ/Ĥ/g;
|
|
41 |
$ĉeno =~ s/Ĵ/Ĵ/g;
|
|
42 |
$ĉeno =~ s/Ŝ/Ŝ/g;
|
|
43 |
$ĉeno =~ s/Ţ/Ŭ/g;
|
|
44 |
|
|
45 |
return $ĉeno;
|
|
46 |
}
|
0
|
47 |
|
|
48 |
sub procezi_dosieron {
|
|
49 |
my $nomo = $_[0];
|
|
50 |
my $stato = $s_komenco;
|
|
51 |
my $linio;
|
|
52 |
|
5
|
53 |
open ($dosiero, "<:utf8", $nomo) or die "DIED: File not found";
|
0
|
54 |
|
|
55 |
while(<$dosiero>) {
|
|
56 |
$linio = $_;
|
|
57 |
if ($stato == $s_komenco) {
|
|
58 |
if ($linio eq
|
|
59 |
"<table cellpadding=\"2\" cellspacing=\"2\">\n") {
|
|
60 |
$stato = $s_nomo;
|
|
61 |
}
|
|
62 |
} elsif ($stato == $s_nomo) {
|
5
|
63 |
$linio =~ /font [^>]*>([^<]+)<\/b><\/td><\/tr>/;
|
|
64 |
# Ni skribas la kapvorton
|
|
65 |
print ":" . $1 . ":";
|
|
66 |
$stato = $s_antaŭdifinoj;
|
|
67 |
} elsif ($stato == $s_antaŭdifinoj) {
|
|
68 |
if ($linio eq
|
|
69 |
"<table cellpadding=\"1\" cellspacing=\"2\">\n") {
|
|
70 |
$stato = $s_difinoj;
|
|
71 |
}
|
|
72 |
} elsif ($stato == $s_difinoj) {
|
|
73 |
if ($linio eq "</table>\n") {
|
|
74 |
$stato = $s_fino;
|
|
75 |
last;
|
|
76 |
}
|
|
77 |
if ($linio =~ /^\t<tr>.*font size=\"1\"><i>([0-9]+).*size=\"2\">(.*)<\/td><\/tr>\n/) {
|
|
78 |
# Ni skribas la linion de difino/traduko
|
|
79 |
print $1 . ". " . elhtmligi($2) . "\n";
|
|
80 |
}
|
0
|
81 |
}
|
|
82 |
}
|
5
|
83 |
|
|
84 |
if ($stato != $s_fino && $stato != $s_komenco) {
|
|
85 |
die;
|
|
86 |
}
|
|
87 |
|
|
88 |
close $dosiero;
|
0
|
89 |
}
|
|
90 |
|
|
91 |
sub krei_dosiernomon {
|
|
92 |
my $num = $_[0];
|
|
93 |
return "$origino/diego$num.html";
|
|
94 |
}
|
|
95 |
|
5
|
96 |
for $i ($unua_vortonumero .. $lasta_vortonumero) {
|
0
|
97 |
$nomo = krei_dosiernomon($i);
|
|
98 |
|
|
99 |
procezi_dosieron($nomo);
|
|
100 |
}
|