Jeu: Avez vous une machine performante pour lire un PDF?

ares · Le 24/10/2013, à 00:35

<hs>

Gatsu a écrit :

Alors là tu m'en bouche un coin ! t'aurais un échantillon à poster ?

Sauf erreur... c-cube a raison, et c'est très bien expliqué ICI avec un fichier TIFF compressé en jpeg
Comme l'explique c-cube le problème «apparaît» avec une faible résolution de 200dpi et cela «semble» connu et non résolu par Xerox !
C'est d'ailleurs le lien que tu nous as communiqué Gatsu !!!
Depuis ce même lien, le fichier tiff est au format "pdf" et on peut faire un copié/collé des valeurs fausses vers un traitement de texte par exemple!!!

Gatsu a écrit :

Sur cette page, ils disent explicitement que tout dépend de la police utilisée, certaines étant pire que d'autres. Ils citent notamment arial et helvetica.

Bof !
Arial & Helvetica sont quasi identique sauf pour 6 caractères
Helvetica est la police la plus utilisé dans le monde car très lisible.
Ce sont des "petits" scanners à défilement... avec beaucoup de "plastique" auquel il faut ajouter les imperfections du papier et la faible «définition».

Arial est une merde bye Microsoft qui ne voulait pas payer l'ayant droit. Arial est depuis peut fournit avec les dernières versions PostScript pour copieur/imprimante.
</hs>

Pour en revenir au plan.
Sur mon ordi, j'ai abandonné l'affichage sous evince tellement c'est lent
J'ai un PC avec CPU Atom/2Go et la carte Intel intégré...
En utilisant la commande de Grünt, puis en convertissant le "pdf" en "svg" il faut environ plus de 3mm à Firefox pour m'afficher le plan... mais j'ai perdu certains caractères qui ne sont pas inclus dans la "police" après conversion...
Bref, la RATP devrait utiliser le format "OSM" ;
j'ai aucun problème pour me balader dans le plan de Toulouse, «je vois la vie en rose».

cbrunos · Le 24/10/2013, à 08:20

Une bonne vingtaine de secondes avec Okular sur un core i3@3.10Ghz. Ça ne me surprend pas étant donné le nombre d'infos sur cette carte.

c-cube · Le 24/10/2013, à 16:21

Gatsu a écrit :

c-cube a écrit :
Le lien vers Wikipedia que tu donnes indique notamment ceci :
Overall, the algorithm used by JBIG2 to compress text is very similar to the JB2 compression scheme used in the DjVu file format for coding binary images.
PDF files versions 1.4 and above may contain JBIG2 compressed data.
Comme « very similar » ne veut pas dire identique, doit on en conclure que DjVu est affecté par le problème qui concerne JBIG2 alors que c'est JB2 (autrement connu sous le nom de DjVuBitonal) qui est utilisé ?
Je n'ai rien trouvé qui indique que DjVu pose les mêmes soucis que les programmes utilisant JBIG2, mais je suis bien sûr preneur de tout lien à ce sujet.
Je vais quand même essayer de reproduire cet artefact du 6 changé en 8 avec DjVu pour voir.
Désolé, je n'ai que celui déjà posté plus haut. Je vois qu'il y a d'autres liens sur la page wikipedia, mais ils semblent tous se reporter à celui que j'ai donné.
Pour « very similar », je suppose qu'il se base sur le même principe pour comprimer le texte (sans toutefois utiliser des algorithmes de reconnaissance rigoureusement identiques) : vérifier toutes les zones de texte, scanner toutes les lettres une par une et remplacer toutes celles qui se ressemblent le plus par une image unique. Et c'est sur ce principe là que je trouve la compression JBIG2 plutôt mal fichue. Autant un scan au format image TIF ou BMP, s'il y a un doute sur un chiffre ou autre à cause d'un floutage trop prononcé, on situe tout de suite le problème sur la page, au pire on redemande une copie en meilleure qualité. Avec JBIG2, c'est la machine qui choisit l'une ou l'autre version du chiffre en cause, et on est incapable de détecter la corruption du document après coup.

Oui, la méthode est effectivement problématique car une mauvaise substitution de caractères ressemblants est plus difficilement détectable qu'avec d'autres procédés. Quoi que quand je vois ce que ça donne avec JPEG, j'ai de sérieux doutes (cf. mon lien plus bas).
Après j'ignore si le problème est rigoureusement le même avec la méthode JB2 propre à DjVu qui est peut-être légèrement plus efficace.

Gatsu a écrit :

c-cube a écrit :
Par contre, on pourra remarquer qu'il est précisé que JBIG2 est utilisé par certains programmes générant du PDF. Pour moi c'est plutôt une raison supplémentaire de fuir le PDF lorsque je peux utiliser DjVu à la place. D'autant plus que DjVu est nettement plus performant sur certains contenus.
Attention, je dis pas que PDF c'est la panacée, je soulevais juste un problème que je trouve important concernant le format DjVu et sa méthode de compression après avoir lu la page wikipedia.

Oui mais comme tu parlais de fuir le format DjVu pour cette raison, je dois dire qu'à la lecture attentive de la page wiki dont tu parles j'ai un peu tiqué, car en fait le problème se pose aussi avec PDF.

Gatsu a écrit :

c-cube a écrit :
Sinon, rien à voir non plus mais je viens de faire des tests avec le format DjVu et l'utilitaire cjb2 (encodeur en ligne de commande utilisant DjVuBitonal, donc JB2).
J'ai transformé une image TIFF comportant des 6 et des 8 de plus en plus petits (de police taille 14 jusqu'à police de taille 6) en un fichier DjVu.
Non seulement le problème soulevé pour la méthode JBIG2 ne se reproduit pas avec JB2 (mon fichier DjVu était correct et sans artefacts, même sur les très petits chiffres, alors même qu'il était 3 fois plus léger que le TIFF équivalent), mais j'ai par contre pu m'apercevoir que ce même problème survient avec du JPEG ! En scannant en JPEG, avec une résolution de 200 dpi, j'ai bien un 6 qui s'est transformé en 8.
Autrement dit, un matériel qui scanne en JPEG aura exactement le même problème qu'avec JBIG2 et rien ne prouve par contre que DjVu soit pire que PDF par rapport à ce problème, bien au contraire même.
Alors là tu m'en bouche un coin ! t'aurais un échantillon à poster ?
Sur cette page, ils disent explicitement que tout dépend de la police utilisée, certaines étant pire que d'autres. Ils citent notamment arial et helvetica.
> http://fontfeed.com/archives/xerox-scan … r-numbers/

Oui j'ai un échantillon :

Lien fichier JPEG.

La transformation du 6 en 8 se manifeste à la fin de la dernière ligne.

Je ne connais pas d'endroit où héberger gratuitement et rapidement mon fichier TIFF et mon fichier DjVu issu du TIFF, mais ça n'a pas d'importance. Tu peux les reproduire toi-même.

Il suffit pour cela de taper les chiffres en police FreeSans dans LibreOffice Writer (première ligne en taille 14, ligne suivante en 12, etc. jusqu'à la taille 6).

Ensuite tu l'imprimes puis tu le scannes en TIFF.

Sous Ubuntu, tu n'as plus alors qu'à installer le paquet djvulibre-bin puis utiliser la commande suivante :

cjb2 scan.tif scan.djv

Tu constateras alors que tu obtiens bien un fichier moins volumineux mais très peu différent du TIFF d'origine et que l'artefact du 6 changé en 8 n'apparaît pas.

Sinon, pour revenir au sujet du topic, je me suis amusé à utiliser l'utilitaire en ligne de commande pdf2djvu sur le fichier d'origine (plan du métro en PDF). La commande de base, sans autres options que le fichier de sortie, est toute simple :

pdf2djvu -o metro_geo.djv metro_geo.pdf

Cela prend environ une petite minute à encoder. On obtient alors un fichier DjVu de 2,4 Mo, lequel est donc plus volumineux que le PDF original, ce qui est normal puisque la conversion produit du bitmap.
Mais l'avantage c'est que le fichier DjVu s'ouvre en à peine 5 à 10 secondes avec Evince et en tout juste 3 ou 4 secondes avec l'utilitaire DjView4 qui permet notamment un niveau de zoom plus élevé et une navigation dans l'image à la souris. Le tout restant parfaitement lisible et fluide.

Conclusion : si vous avez un plan PDF imbuvable, car farci de vectoriel, énorme et qui flanque la fièvre à votre processeur, la conversion en DjVu me semble un remède intéressant.

Merci GNU/Linux. Merci la ligne de commande.

PS : Spécial dédicace pour ares. Et ici aussi.

pfriedz · Le 24/10/2013, à 16:29

Le plan des lignes de bus de ma communauté d'agglomération est très lourd à ouvrir aussi (en PDF). Du coup, je l'ai ouvert avec GIMP qui m'a proposé la conversion en bitmap. Ça prend un petit peu de temps, mais j'ai conservé le fichier enregistré en Jpeg, et du coup maintenant c'est comme si j'ouvrais une grande photo. Il suffit juste de choisir une définition qui permette de tout lire.

ares · Le 24/10/2013, à 20:06

Petite précision concernant le tiff... le Tiff offre une multitude d'options qui permettent de s'affranchir de la compression jpeg cher c-cube
Les scanner "pro" (Canon/Ocè, Xerox) offre toutes ces options à l'opérateur.

Toujours à propos du plan, mais au taf... aucun problème d'impression avec une RedHat ou Solaris sur imprimante laser ou traceur grand format Xerox et cela très rapidement en moins de deux minutes.
La "visu" est rapide (1mn) et très fluide sur un Pentium IV et 1Go de ram sous RedHat.

Désolé, impossible de faire le teste sur un serveur d'impression Windows... il arrivait pas a traiter des fichiers "pdf" > à
500Mo! Le "moisi" a été retiré des locaux

c-cube a écrit :

PS : Spécial dédicace pour ares. Et ici aussi.

En parlant de "moisi"... explication sur l'Arial mais là c'est du hors sujet cher c-cube

Gatsu · Le 24/10/2013, à 20:29

@ ares :
Sauf erreur, il n'est pas question de JPG dans mon lien, mais bien de JBIG2 sur machine Xerox.

@ c-cube :
Oui le JPEG perd beaucoup de lisibilité. Sur ton image on voit bien que le 6 est devenu tendancieux, la boucle haute du 6 semble se refermer, mais il ne possède pas la denture caractéristique du 8 sur la gauche du chiffre. Sur cet exemple, un lecteur attentif se méfiera naturellement de la copie qu'il tient en main, par contre sur les images sorties par les machines Xerox en JBIG2, le 6 est réellement devenu un 8, sans contestation possible.

Un autre exemple où ce n'est pas un mélange de 6 et de 8

Originaux :
original-02 original-01 01-original

Comprimés par Xerox en JBIG2 :
Xerox-02 Xerox-01 01-Xerox
Et encore, chaque passage dans le scanner est différent, parfois les chiffres sont exacts, parfois ils sont inversés. Moi qui bouffe tous les jours des plans et des cotes faxés, rescannés par derrière, et ainsi de suite (et tout aussi pourris que ceux juste au-dessus, voire pire encore), je crois que je maudirais tout le monde si j'avais affaire à ce genre de document corrompu. Et de toute façon on serait incapable de travailler avec ces merdes.

Il faudrait que je fasse des tests persos, peut-être ce week-end si je suis motivé. Et merci pour la manip, ça m'évitera de chercher.

PS: désolé de faire du hs dans le topic.

ares · Le 24/10/2013, à 21:59

Gatsu a écrit :

@ ares :
Sauf erreur, il n'est pas question de JPG dans mon lien, mais bien de JBIG2 sur machine Xerox.

Ben si cher Gatsu :

Gatsu a écrit :

c-cube a écrit :
j'ai par contre pu m'apercevoir que ce même problème survient avec du JPEG ! En scannant en JPEG, avec une résolution de 200 dpi, j'ai bien un 6 qui s'est transformé en 8.
Autrement dit, un matériel qui scanne en JPEG aura exactement le même problème qu'avec JBIG2
Alors là tu m'en bouche un coin ! t'aurais un échantillon à poster ?

Dans le lien que tu communiques :
Le fichier Tiff en 200dpi avec compression jpeg scanné depuis un Xerox 7556, une fois au format Pdf utilisant JBIG2 ; on obtiens effectivement un "Pdf" plus ou moins «corrompu».
En plus tu peux faire un copié/collé du "Pdf" vers un autre logiciel... mais bonjour les copiés/collés

Le problème existe t'il si on scanne en Tiff avec une compression PackBits ou LZW puis en utilisant JBIG2 avec le "Pdf" ?!?

Gatsu a écrit :

Et encore, chaque passage dans le scanner est différent, parfois les chiffres sont exacts, parfois ils sont inversés. Moi qui bouffe tous les jours des plans et des cotes faxés, rescannés par derrière, et ainsi de suite (et tout aussi pourris que ceux juste au-dessus, voire pire encore), je crois que je maudirais tout le monde si j'avais affaire à ce genre de document corrompu. Et de toute façon on serait incapable de travailler avec ces merdes.

On est bien d'accord, mais avoir une machine qui imprime en 600dpi... c'est un peut bête de pas utiliser le scanner en 400dpi, ou 300dpi, c'est comme diviser le temps de lavage par 2 car le lave vaisselle est chargé à moitié
Tu utilises encore le fax ?

A propos du plan... mais toujours HS, merci à c-cube, car je connaissais pas DjVu.
Merci aussi au "modos" pour tolérer mes hs ! Bon je touche plus au clavier !

Gatsu · Le 24/10/2013, à 23:27

Euh... désolé, mais je vois toujours pas le rapport.
C'est pas le JPEG qui est corrompu, c'est le fait de comprimer un fichier scanné, par la méthode JBIG2 avec une machine Xerox qui corrompt la copie.

D'ailleurs « le fichier Tiff en 200dpi avec compression jpeg » que tu mets en lien est qualifié en tant que « An error-free TIF scan of the page » dans l'article.

Sinon, non, je n'utilise plus les fax, mais c'est pas le cas de tout le monde. Et ça ne m'empêche pas de recevoir des scans de plans faxés, à la pelle.

MarcusAntonius · Le 25/10/2013, à 01:21

Pour ma part s'ouvre en 3-4 secondes avec chrome, zoom avec un léger retard.
1 min 30 avec evince
du coup même si ça me serait bien utile j'imagine même pas l'avoir sur mon téléphone....

c-cube · Le 25/10/2013, à 23:57

pfriedz a écrit :

Le plan des lignes de bus de ma communauté d'agglomération est très lourd à ouvrir aussi (en PDF). Du coup, je l'ai ouvert avec GIMP qui m'a proposé la conversion en bitmap. Ça prend un petit peu de temps, mais j'ai conservé le fichier enregistré en Jpeg, et du coup maintenant c'est comme si j'ouvrais une grande photo. Il suffit juste de choisir une définition qui permette de tout lire.

J'ai testé ta manip qui, sur le principe, est tout à fait valable.
Avec GIMP j'ai donc créé un JPEG de ton plan d'agglomération. En qualité 90 (généralement correcte et ne dégradant pas trop l'image), j'obtiens un fichier de 4,9 Mo (contre 5,3 Mo pour le PDF d'origine). C'est pas mal, car effectivement rapide à l'ouverture et fluide pour la navigation dans le visionneur d'images, mais ça reste un peu flou quand même pour la lecture des plus petits textes.
Avec la manip de conversion du PDF en DjVu que j'ai indiqué plus haut (utilitaire pdf2djvu), j'obtiens un fichier DjVu de 1,9 Mo, sensiblement plus net que le JPEG et tout aussi aisé à ouvrir et à consulter via DjView4. Difficile de faire mieux. Je t'invite à tester. (Je n'ai d'ailleurs pas noté de transformations intempestives de 6 en 8 à cette occasion).
Et si c'est pour une lecture sur smartphone Android, le format DjVu est tout à fait utilisable avec une appli comme le logiciel libre Orion Viewer par exemple.

ares a écrit :

En parlant de "moisi"... explication sur l'Arial mais là c'est du hors sujet cher c-cube

Merci malgré tout pour ce hors sujet fort instructif.

Gatsu a écrit :

@ c-cube :
Oui le JPEG perd beaucoup de lisibilité. Sur ton image on voit bien que le 6 est devenu tendancieux, la boucle haute du 6 semble se refermer, mais il ne possède pas la denture caractéristique du 8 sur la gauche du chiffre. Sur cet exemple, un lecteur attentif se méfiera naturellement de la copie qu'il tient en main, par contre sur les images sorties par les machines Xerox en JBIG2, le 6 est réellement devenu un 8, sans contestation possible.

C'est exact.
Bon, le souci quand même c'est que tous les lecteurs n'étant pas forcément attentifs, surtout dans des contextes professionnels où il faut être toujours plus rapide et où la lecture « en diagonale » est monnaie courante, la subtilité de la denture peut facilement leur échapper. Et donc, dans ce cas, même JPEG reste problématique, bien que ce soit moins grave qu'avec JBIG2, on est bien d'accord.

J'aimerais quand même avoir la certitude que le JB2 utilisé par DjVu pose bien le même problème d'artefact que JBIG2 (utilisé par PDF). La méthode a beau être similaire, il se peut encore que l'algorithme de JB2 soit mieux codé. Pour l'instant je n'ai pas encore constaté l'ombre d'un artefact gênant avec DjVu qui est un format très utilisé pour la numérisation d'archives et la documentation technique.

ares a écrit :

A propos du plan... mais toujours HS, merci à c-cube, car je connaissais pas DjVu.

Avec plaisir.

Et désolé pour la poursuite du HS.

Dernière modification par c-cube (Le 26/10/2013, à 00:01)

torturedutopian · Le 15/12/2014, à 16:36

Sur une meme machine, qqun pourrait-il comparer evince et okular ? Depuis qques versions, Okular a un affichage multi-threade appele tiled rendering ; si je comprend bien il decoupe le PDF en plusieurs bouts pour les decoder separement... Je ne sais pas si c'est libpoppler ou okular qui apporte la fonctionnalite.

Desole je suis en qwerty la !

Sans vouloir troller. j'ai pu constater par le passe des differences phenomenales de performances entre Dolphin et Nautilus ou Gwenview et Eye of Gnome ; je ne sais pas s'il en est de meme entre Evince et Okular !

Dernière modification par torturedutopian (Le 15/12/2014, à 16:38)

torturedutopian · Le 15/12/2014, à 17:13

Bon, j'ai testé vite fait mais malheureusement je n'ai pas mesuré.
Sur un vieux PC Celeron 2.2 Ghz, avec le dernier Evince (gnome 3.14), j'ai laissé tourner plusieurs minutes, l'écran restant désespérément blanc.
Ensuite j'ai booté sous Kubuntu 14.10, là Okular m'affiche immédiatement une version ultra pixellisée du plan. Au bout d'une durée moins longue que ci-dessus (que malheureusement je n'ai pas mesurée), il m'affiche parfaitement le plan ; zoomer ne prend pas beaucoup de temps supplémentaire.
Il serait intéressant de faire un test précis pour comparer et voir si c'est le tiling qui joue.

Compte anonymisé · Le 15/12/2014, à 17:32

Dix secondes aussi avec la machine de ma signature.

Kieran · Le 15/12/2014, à 19:42

Aucun probleme ni avec evince, ni Okulare

Compte anonymisé · Le 15/12/2014, à 19:47

Mudochon a écrit :

A peu près la même chose chez moi, avec mon Intel i3-3225

Je viens de refaire le Test, mais cette fois ci sur mon PC portable ( Intel i3 4000m, et un SSD Samsung de 120 Go ) -> 5 secondes

Ubuntu-fr

Navigation

Liens de recherche

Annonce

#26 Le 24/10/2013, à 00:35

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#27 Le 24/10/2013, à 08:20

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#28 Le 24/10/2013, à 16:21

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#29 Le 24/10/2013, à 16:29

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#30 Le 24/10/2013, à 20:06

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#31 Le 24/10/2013, à 20:29

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#32 Le 24/10/2013, à 21:59

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#33 Le 24/10/2013, à 23:27

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#34 Le 25/10/2013, à 01:21

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#35 Le 25/10/2013, à 23:57

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#36 Le 15/12/2014, à 16:36

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#37 Le 15/12/2014, à 17:13

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#38 Le 15/12/2014, à 17:32

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#39 Le 15/12/2014, à 19:42

Re : Jeu: Avez vous une machine performante pour lire un PDF?

#40 Le 15/12/2014, à 19:47

Re : Jeu: Avez vous une machine performante pour lire un PDF?

Pied de page des forums