Bon, ça marche.

Depuis le dernier billet, je me suis rapidement fait virer de chez dreamhost (en fait, ils ont juste désactivé la base de données de binaires.com mais le résultats est le même). J’ai donc dû prendre un serveur dédié plus tôt que prévu.

La mise en place des données (surtout pour les gros groupe) a été plus longue que prévue (sans doute un problème de conception à mon niveau… tout ça doit pouvoir s’optimiser) et la recherche par mots-clé étant beaucoup trop lente, j’ai dû sacrifier les recherches de ce type : “l.e.f.i.c.h.i.e.r.q.u.e.j.e.c.h.e.r.c.h.e” (binsearch, newzleech, etc.. ont fait le même choix. ça ne marche pas chez eux non plus).

mais globalement, ça marche.

Add comment septembre 2, 2008

De retour (enfin !)

Depuis le 25 juillet et jusqu’à aujoud’hui (19 aout à 16h30), je n’avais plus de connexion ADSL. Maintenant que j’ai (enfin !) reçu ma nouvelle freebox (tant qu’à faire, ils auraient pu m’envoyer un modèle plus récent… enfin bref, l’important c’est que ça marche..) je vais pouvoir reprendre là où j’en étais avec un mois de retard : c’est à dire le test du moteur en grandeur nature en hébergement mutualisé chez dreamhost.com.

Add comment août 19, 2008

Petit contre-temps

Il y a 3 ou 4 jours, j’avais prévu de faire une grosse mise à jour des données (rétention 200+ jours, 40 groupes dont des “gros”) et j’ai malheureusement été bloqué par un problème technique que je n’avais pas vraiment prévu : les grosses mises à jours ne passent pas. Ca marchait bien lorsque je mettais en ligne un petit groupe, mais pas lorsqu’il y a trop de données à inclure en même temps.

bref… c’est pour ça qu’il n’y a plus rien dans le moteur pour l’instant. ça devrait revenir dans une semaine avec un contenu plus fourni.

1 comment juillet 23, 2008

Test en ligne

Je viens de mettre à jour le moteur(script et données) et le résultat est en ligne pour un test en (presque) grandeur nature.

14 groupes avec une rétention d’environ 200jours.

L’hébergement est toujours en mutualisé chez Dreamhost.com(7€/mois pour le multidomaine illimité… Ca m’étonnerait que binsearch soit hébergé sur le même serveur…)

A premère vue, j’ai déjà détecté quelques petits problèmes :

1. le filtrage du spam marche moins bien que prévu (je vais devoir revoir cette partie)
2. concernant l’âge des fichiers, quand c’est écrit “7 heures”, ça devrait être plutôt “9 heures”. Problème de fuseau horaire sans doute.
3. bah en fait, c’est tout pour l’instant. Le reste c’est des bugs “normaux” (quand un truc n’est pas fini, c’est normal que ça ne marche pas)

Si vous passez par là (forcément par hasard puisque je n’ai encore fait aucune annonce sur aucun forum), n’hésitez pas à tester le moteur et à me signaler les bugs détectés et à formuler vos critiques (vitesse de chargement, interface du site, etc…). Merci d’avance.

3 comments juillet 16, 2008

Comparatifs des moteurs usenet

Lorsqu’on se lance dans la programmation d’un “clone” de projets existants, il est normal de surveiller la concurrence alors voici un mini-comparatif.

Je commence par les meilleurs :

Binsearch.info, newzleech.com, bintube.com : un max de groupes indexés, rétention 200+ jours, toutes les fonctionnalités utiles et même un peu plus.

binabled.com rétention un peu plus faible (130jours) mais bon moteur.

gonzb.com : rétention 200jours, bon moteur également.

nzbindex.nl : rétention 120j

nntpsearch.nl : rétention 120 jours

meganzb.com : rétention 1 mois, api xml

yabse.nl : tout en néerlandais, rétention 100jours.

magnatic.com : retention 130jours

nfonews.com : rétention 300j qui semble être la conséquence des mises à jour pas très régulière (dernier update il y a plus de 6 mois pour boneless, 10 jours pour warez.quebec-hackers)

binindex.net rétention 50jours

usenetlive.com : pas de regroupement par catégories, nzb désactivés.(inutile, donc)

alt.binaries.nl : pas de regroupement par catégories et rétention de seulement 45 jours

iliatou: rétention de 60 jours, étrange présentation (moteur binaire + site de petites annonces, ça fait un drole de mélange). site mort ?

binarynewz.com, : timeout, impossible de tester

nzbfile.com : pas mis à jour depuis un moment (site à vendre : projet abandonné ?), rétention de 45 jours

binarchive.net : fonctionne avec easynews. Ne fourni apparemment pas de nzb.

nzb4u.com : rétention 75j, inscription payante obligatoire (donc je n’ai pas pu tester)

usenetsearch.nl : pas rapide, problème avec les mises à jour. quasi-inutilisable en l’état.

newzsearch.com : très faible rétention 15j

sites morts:
usenetjunkie.com, bincrawler.com

Add comment juillet 16, 2008

Fioritures

Je n’ai pas beaucoup avancé depuis le dernier billet (je pense que mon système de mise en cache et de compression .gz est au moins… il me reste à corriger d’éventuels bugs mais pour la mise à jours des groupes, j’en suis toujours au même point) mais je pense intéressant de faire le point sur les fonctionnalités “inutiles” que je n’ai pas mis en place.

1. Affichage du contenu du .nfo : c’est une fonctionnalité que je n’utilise presque jamais donc je n’ai pas envie de me prendre la tête avec ça. Binsearch(advanced search) propose également une recherche dans le contenu des .nfo. Evidemment, c’est une fonction qui ne sera pas implémentée non plus.

2. flux rss (par groupes et par mots-clés). Je trouve ça utile pour un site de référencement (binnews, ng4you) mais pas pour un moteur usenet binaires. Cela dit c’est très simple à faire… A voir.

3. “Add to watchlist”. Je ne sais pas trop comment traduire ça alors j’ai repris le terme utilisé par binsearch. C’est l’option qui permet d’ajouter des fichiers en mémoire afin de générer un .nzb personnalisé de tous les fichiers ainsi sélectionnés. Je n’utilise jamais ça donc je n’ai pas envie de me prendre la tête avec ça non plus.

4. API (voir sur alt.binairies.nl). Je trouve que c’est une bonne idée et j’ai bien envie de mettre en place ce genre de choses pour permettre aux webmasters de créer facilement leur propre moteur binaires
à partir des données de binaires.com.

5. Amélioration de la charte graphique. Comme je l’avais expliqué dans un billet précédent, le header du site en noir et vert mériterait d’être refait différemment car ça ne va pas trop avec les couleurs que j’ai choisi pour l’affichage des résultats de recherches. Mais j’ai fini par m’y faire et je n’ai pas le goût de faire du graphisme en ce moment. Alors ça risque de rester comme ça un bout de temps.

6. Indexer un maximum de groupes. Il existe un peu plus de 100 000 groupes binaires mais on utilise toujours les mêmes alors je vais me contenter de lister environ 50 groupes. J’en ajouterais un à chaque fois que quelqu’un râlera assez fort pour me convaincre qu’il manque à binaires.com un groupe indispensable.

A vous de me convaincre que l’affichage des .nfo ou le système de “watchlist” sont indispensables.

Lachez vos com’

2 comments juillet 13, 2008

Pertinence

Je bloque toujours un peu sur le regroupement des fichiers en “collections”, la détection du type de fichier et le filtrage du spam. Je me prend la tête sur les expressions régulières pour essayer de prendre en compte tous les cas de figures possibles. J’aimerais que mon système soit “parfait” mais je me rend compte, lorsque je fais des comparaisons, que binsearch, newzleech, etc.. ne sont pas parfaits non plus à ce niveau là donc ça ne me motive pas à régler ce problème en urgence. Ca ira comme ça pour l’instant.

Je vais me concentrer sur les mises à jours de fichiers et de collections incomplets.

exemple 1: xxxxxxxx.r01 qui était en cours de post, qui n’était visible qu’à 52% à la dernière mise à jour et qui est complet à 100% à la mise à jour suivante. ça marche bien. je pense avoir tenu compte de (presque) tout,même certaines bizarreries comme des dates différentes (à quelques minutes ou secondes près) pour un même fichier alors qu’il ne s’agit pas d’un repost.

exemple 2 : un post (un divx archivé en rar + r00+r01, etc… +par2) était en cours (13 fichiers sur 28 ) à la dernière màj. Il est maintenant complet. Je n’ai pas encore commencé cette partie et j’espère ne pas passer trop longtemps sur cette petite chose.

Il me restera ensuite à améliorer mon système de cache (pour ne pas recréer le même fichier nzb 50 fois par minute, par exemple) puis à faire en sorte que mes mises à jour se fasse par le lancement multiple (20 fois) d’un script php de 30 secondes au lieu d’un chargement en une seule fois de 10 minutes qui risque de planter avant la fin et de faire râler mon hébergeur (hébergement mutualisé).

Quand j’aurai fini ça, je lancerai le site…

Avant la fin juillet, je pense…

Add comment juillet 12, 2008

J.e.N.e.T.r.o.u.v.e.P.a.s.C.e.F.i.c.h.i.e.r…

…et c’est quelque chose qui m’énerve à chaque fois (et je ne crois pas être le seul). Trop souvent (à chaque fois ?) les fichiers qui comportent un point entre chaque lettre sont introuvables dans les moteurs de recherche Usenet.

Ce qui fera au moins une raison d’utiliser binaires.com. Exemple “C.o.u.r.t.s.P.i.x.a.R.c.o.l.l.e.c.t.i.o.n.v.o.l.u.m.e.1.

Add comment juillet 4, 2008

Je suis toujours là

Juste un petit mot pour signaler que le projet n’est pas en stand-by pendant 2 mois comme la dernière fois.

Je bosse toujours sur l’optimisation : nzb compressés au format gzip, optimisation de la base de données et des requêtes sql pour la partie publique(recherche, listing des fichiers d’un groupe, génération du nzb) et pour la partie admin (remplissage de la base de données).

Comme je fais tout ça en local sur mon ordi aucune de ces petites améliorations n’est visible pour l’instant.

Par ailleurs, en ce qui concerne le serveur, je me suis décidé pour un kimsufi 2008 XXL à 55€/mois avec debian comme système d’exploitation (je sais qu’avec une debian, je ne choisi pas la facilité étant donné que je n’y connais pas grand chose en serveur web, mais je me débrouillerai).

55€/mois c’est une somme assez importante qui ne se justifie sans doute pas totalement (un serveur à 20€ devrait largement suffire pour les premier mois d’exploitation du site, mais je préfère voir large et anticiper le succès de mon moteur :p car je n’ai pas envie de changer de serveur tous les 3 mois).

55€/mois, c’est une somme qu’il va falloir que la pub me rembourse. Si vous avez des idées de pubs utiles et discrètes (pub pour giganews,par exemple) ça m’intéresse. Je ne souhaite pas que binaires.com soit envahi par la pub comme le sont la plupart des sites français consacrés aux newsgroups binaires.

Add comment juillet 3, 2008

Petites améliorations

Amélioration de la vitesse de génération des pages. (je dois pouvoir faire encore un peu mieux mais ça me semble déjà correct comme ça. Vous en pensez quoi ?)

Remise en place de la fonction recherche que j’avais désactivé.

Ajout du groupe alt.binaries.movies.zeromovies.

quelques petites optimisations sur les updates des groupes (mais vous vous en foutez un peu car ça ne concerne que la partie administration du site)

Et là je suis fatigué et je vais dormir (et ça vous vous en foutez encore plus :p )

Add comment juin 29, 2008

Previous Posts


Categories

  • Blogroll

  • Feeds