Script extract pdf

Hola gente buenas tardes. Soy nuevo el foro, brevemente cuento que estoy por empezar a estudiar desarrollo de software. Tambien hace un año que me dedico a aprender Python como lenguaje principal. De todas maneras aun soy un principiante y no eh desarrollado grandes scripts.

Ahora bien, tengo una consulta, si bien no pretendo una solucion, la idea es ver si es viable, posible o si es de muy alta complejidad o puede que exista una libreria que me pueda servir.

Me encuentro con la necesidad de simplificar sierta tarea laboral donde necesito extraer dos datos en particular de facturas digitales. Mas especificamente el Nro de factura y el CUIT emisor. La idea final es pasar el pdf por el script y que esos dos datos me los pegue en un software de carga de datos. Pero vamos paso por paso y con conseguir extraer esos datos a un txt para empezar no estaria mal, al menos para hacer el trabajo de manera mas escalonada.

Deje una foto ilustrativa de una factura X, donde muestro los datos que quiero obtener, en general las facturas son genericas y siempre son muy similares o por no decir iguales. Es el numero de factura y el cuit de ese recuadro rojo.

Estoy investigando varias maneras, vi algunas librerias, videos pero siempre hace referencia a extraer todo el texto de un pdf, cuanto mucho puedo variar las strings de los int, pero mi idea es filtral para conseguir solo esos dos datos.

Ahora bien espero sus opiniones, visiones o lo que tengan para aportar, quizas sea demasiado complejo y lleve mucho tiempo de desarrollo, pero fuera de mi horario laboral me entretengo haciendo esta clase de ejercicios y trabajos que me ayuden a mejorar mis experiencias de estudio y practica.

Gracias a quien se tome el tiempo de leer y mas a quien aporte algo.
Saludos !

Parece que la lib pypdf2 puede extraer texto. ¡Ojalá te sirva! Extract Text from a PDF — pypdf 3.4.1 documentation

Hola manuq, si ya estuve trabajando con esa lib, de echo sigo trabajando para intentar extraer solo los datos que necesito, estoy intentando meter filtros y condiciones y que el resultado no me lo de en un txt sino que lo puedo exportar a otro programa y me complete unas celdas en espesifico. Bueno me lo tomo con calma pero esa lib me ayudo bastante de un inicio. Gracias !

Comparto el proyecto donde me encuentro trabajando este script. De momento logre extraer los datos necesarios pero me encuentro automatizando mas tareas para cualquier factura en PDF.

Proyecto PFACTURA