Nueva CDPedia liberada: 0.9.0, en varios idiomas

Python Argentina (PyAr) se enorgullece de anunciar la versión 0.9.0 de la CDPedia.

Esta versión trae no sólo una actualización del contenido al 2021, sino una CDPedia totalmente renovada luego de que estuvimos todo un equipo trabajando un año en la misma, lo cual incluye una búsqueda más rápida y exacta, mejoras en la experiencia de les usuaries finales, y grandes cambios internos en el proyecto para modernizarlo y hacerlo más robusto. El detalle de todos los cambios está acá.

Pero quizás la novedad más importante de esta versión es que completamos algunos cambios y ajustamos todos los detalles para poder empezar a generar CDPedias en distintos idiomas. Por eso si van al sitio arriba mencionado van a ver que podrán elegir la CDPedia no sólo en Castellano sino también en Aimara y Portugués.

Bajala, usala, disfrutala. Y si tenés discos disponibles, hacé algunas copias de CDPedia para regalar a tus familiares y amigues, a la biblioteca de tu barrio, o a la escuela de tus hijes. O directamente llevala en un pendrive.

¡Difundí CDPedia!

Acerca de la CDPedia

La CDPedia es un proyecto del grupo de usuaries de Python Argentina que permite acceder a la información de la Wikipedia en castellano sin necesidad de una conexión a Internet.

Se puede descargar libremente de la red y grabar a CDs, DVDs o memorias USB para repartirlos sin restricciones. La CDPedia funciona en cualquier computadora, ya sea que tenga Linux, MacOS o Windows como sistema operativo.

2 Me gusta

Que tal, me topé con este proyecto y me encantó, estaba viendo las descargas de CDPedia y esto está genial!!!, solo que no encontré un tamaño que aproveche un Bluray de 25G(23.5), me dio la impresión de que era como un lector de Zim pero no, no encontré un Zim entre los archivos, estoy empezando a leer un poco y quería saber si me bajo un ZIM de la wikipedia si lo puedo procesar para que ocupe un Bluray de 25G(23.5).

¿Hay manera de hacer eso? ¿O solo los desarrolladores pueden?.

Saludos y felicitaciones por la increíble idea.!!!

Creo que ya lo encontré solo me gustaría saber si sí es esta opción porque mi Internet anda muy mal para hacer pruebas que llevarán días.

En el archivo imagetypes.yaml encontré esta:

Spanish

es:
tarbig: # we aim for 10-20 GB
type: tarball
windows: True
page_limit: null # all of them
image_reduction: [5, 20, 60, 15]
name: Super Tarball

Y tendría que ajustar image_reduction para incluir más imágenes, por ejemplo [5, 20, 75, 0] Y que queden todas… ¿Que criterio se toma para NO incluir una imagen?

De acá saqué la ayuda:
'# - imaged_reduction: percentages to indicate how many images
'# will be reduced and how; for example, [10, 15, 25, 50] means:
'# 10% of images will be included full size
'# 15% of images will be reduced to 75% of the original size
'# 25% of images will be reduced to 50% of the original size
'# 50% of images will not be included at all
'# of course, the 4 percentages must add 100%

Hola! No, no es un ZIM.

Podrías generar una imagen de 25GB, si quisieras, sí, paso a contestar lo que preguntaste en el post siguiente…

Antes que nada: si tu internet anda muy mal, no es el mejor entorno para generar una imagen, ya que vas a estar descargando páginas e imágenes por muchos días. En ese sentido, lo mejor es que te descargues el super-tarball y ya.

Avisame cualquier duda. Gracias! Saludos,

Si ponés el image_reduction en [5, 20, 75, 0] te va a incluir TODAS las imágenes, sí. Tené en cuenta que para hacer eso va a bajar potencialmente centenares de gigas. Volvemos al tema que mencionaba arriba de tu calidad de internet.

Con respecto al criterio de cómo se elige que imagen NO incluir (que tiene sentido solamente si el último dígito de esa lista es distinto de cero), se omiten las imágenes de las páginas que tienen menos puntaje (de las páginas menos importantes y que menos chances hay que llegues navegando la cdpedia).

Buenos días Facundo y equipo.
Se me presentaron dos situaciones:

  1. No estoy pudiendo descargar ninguna imagen por .torrent: utilizando clientes por terminal y gráfico.

  2. Por otro lado, luego de clonar el repo de github en Debian 10, instalar dependencias y otros, crear subdirectorios, se me presenta el siguiente traceback:
    Traceback (most recent call last):
    File “./cdpetron.py”, line 475, in
    extra_pages=args.extra_pages)
    File “./cdpetron.py”, line 337, in main
    scrap_portal(language, lang_config)
    File “./cdpetron.py”, line 255, in scrap_portal
    with open(portal_filepath, ‘rt’, encoding=‘utf8’) as fh:
    FileNotFoundError: [Errno 2] No such file or directory: ‘/opt/somedir/es/articles/P/o/r/Portal:Portada’

Me pueden guiar, dar una mano. Los leo, gracias. Pablo

Hola Pablo!

Disculpá la demora en contestar este mensaje,

  1. yo estoy sirviendo los torrents, me resulta extraño que no los llegues a ver, ¿te muestra 0 seeders?

  2. ¿cómo ejecutaste cdpetron.py?

Gracias Facu por responder y a todo el equipo por el excelente proyecto. [Solucionado]
Pude descargar el torrent del super tarball, y ejecutar la CDPedia sin inconvenientes, sobre Debian 10.
(Tuve que modificar el número del puerto de red por defecto del cliente Transmission; de la netbook que se destinó con fines pedagógicos para la biblioteca de la secundaria técnica)
PD: En respuesta a la pregunta N°2, lo ejecuto de la siguiente manera:

  • $ ./cdpetron.py /opt/somedir es obteniendo el traceback anteriormente mencionado.