Accéder au contenu.
Menu Sympa

linux-31 - Extraction du texte d'un PDF

Objet : Discussions sur le logiciel libre

Archives de la liste

Extraction du texte d'un PDF


Chronologique Discussions 
  • From: Pierre ESTREM <peterpan31 AT free.fr>
  • To: Linux 31 <linux-31 AT culte.org>
  • Subject: Extraction du texte d'un PDF
  • Date: Sun, 18 Jul 2021 04:51:10 +0200
  • Authentication-results: pic2s.le-pic.org; dkim=pass (2048-bit key; unprotected) header.d=free.fr header.i= AT free.fr header.b="Ds2zV2gf"; dkim-atps=neutral

Bonjour,

J'ai un outil qui permet de lire vocalement du texte comme ceci ;

$ espeak -v fr "Hello"
ou
$ cat mon.txt | espeak -v fr
ou
$ espeak -v fr < mon.txt

Dans le cas où le fichier est un PDF contenant du texte , comment éviter de lire les "commandes de formatage" ?
Je voudrais éviter les manipulations avec Acrobat.
J'ai envie d'écrire un truc du genre :

$ cat mon.pdf | ... | espeak -v fr

Et en utilisant la commande pdftotext et un pipe ?

Une idée les libristes ?
--
pierre estrem



Archives gérées par MHonArc 2.6.19+.

Haut de le page