Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

create a scrapper program that will scrapp jobs ( V1) #23

Open
tsafacjo opened this issue Oct 15, 2023 · 20 comments
Open

create a scrapper program that will scrapp jobs ( V1) #23

tsafacjo opened this issue Oct 15, 2023 · 20 comments
Assignees
Labels

Comments

@tsafacjo
Copy link
Contributor

create a scrapper program that will scrapp jobs :

  • generate a monthly trend on specific field (which could be publish on linkedIn)
  • automatically suggest resume improvement base on hiring trends
  • generate annual report
@tsafacjo tsafacjo self-assigned this Oct 23, 2023
@tsafacjo
Copy link
Contributor Author

tsafacjo commented Nov 3, 2023

The first version will be done soon.

  • [ Transform to POO code]

  • [ The current version only work for US ,Need create a version for France and Germany]

I will schedule it with kubernetes

@tsafacjo
Copy link
Contributor Author

tsafacjo commented Nov 3, 2023

so much troubles to build docke image with on arm64 .

I will deploy try to deploy on AWS or github action

@tsafacjo
Copy link
Contributor Author

tsafacjo commented Nov 4, 2023

Good t know you can run indepent webdriver ta simulation browner ::

https://github.com/seleniumhq/docker-selenium/#quick-start

@tsafacjo
Copy link
Contributor Author

tsafacjo commented Nov 4, 2023

@tsafacjo
Copy link
Contributor Author

tsafacjo commented Nov 4, 2023

@billmetangmo
Copy link
Member

billmetangmo commented Mar 10, 2024

@namendjo
Copy link

namendjo commented May 5, 2024

@billmetangmo statut ?

@billmetangmo
Copy link
Member

billmetangmo commented May 21, 2024

Changement sur la feature proposée: Scraper non pas tous les jobs sur le web mais les offres d'emploi d'entreprises dans laquelle nous sommes ( ou avons été) afin de permettre de proposer des offres de stages/premier emploi par cooptation aux mentorés ( cela permet aussi cela entre les membres du collectif - peut aussi être un argument supplémentaire pour rejoindre le collectif).

@billmetangmo
Copy link
Member

V1:

  • que scrape t-on ? Toutes les offres de stages et d'emploi tech de l'emploi actuel des membres du collectif ( liste des membres https://github.com/mongulu-cm/contacts )
  • qu'en fait-on ? Stockage par typologie ( stage/offre d'emploi) et métier ( DevOps, Data science, Data engineering, Developer, Sécurité, Réseaux , accès facile et notification en cas de nouveaux jobs pour nous.

@billmetangmo billmetangmo changed the title create a scrapper program that will scrapp jobs create a scrapper program that will scrapp jobs ( V1) Aug 12, 2024
@billmetangmo billmetangmo moved this to Todo in Task Board Aug 12, 2024
@billmetangmo
Copy link
Member

https://scrapfly.io/

@billmetangmo
Copy link
Member

Failure ! Get back to the old code .

@billmetangmo billmetangmo self-assigned this Dec 8, 2024
@billmetangmo
Copy link
Member

billmetangmo commented Dec 8, 2024

Résultat obtenu par ce commit f35c087
ivalua_job_listings.csv

To get the openai key to use , go to:

  1. https://lobembe.mongulu.cm/ ( secret store)
  2. click on secret store
  3. search for manzi-mfa and click on openai key

@billmetangmo
Copy link
Member

billmetangmo commented Dec 8, 2024

Next steps:

  • doublecheck si c'est complet et évaluer le pricing ... J'ai des crédits sur aws donc il vaudrait peut-être mieux passser par Bedrock cladue 3.5 sonnet ...
  • Ou considérer de comparer les images pour savoir s'il y a un changement pour réduire le nombre d'appels à l' IA,

@billmetangmo
Copy link
Member

billmetangmo commented Dec 20, 2024

Par ce commit 47caa5a

J'ai rajouté une fonction pour récupérer la position d'un bouton Next sur une page , une fois ceci fait. On peut la passer àa la ofnction click_next_page qui va cliquer sur next jusqu'à ce qu'il n'y ait plus de page. Je me dis que ça peut être le mécanisme général pour ce type de page

@billmetangmo
Copy link
Member

@Joyce-Tchamdjou last commit with refactor to SOLID 666182e
We need to create a PR by the way

@billmetangmo
Copy link
Member

billmetangmo commented Jan 16, 2025

  • Check 2 people missing: ngankam still at ratp ? Patrick D still engie ?

@Joyce-Tchamdjou
Copy link

Joyce-Tchamdjou commented Jan 16, 2025

Liste des sites carrières qui me modifient pas l'url quand on filtre

@billmetangmo
Copy link
Member

Extia: récupérer des élements uqi sont pas des offres d'emploi par exemple

+-------------------------------------+--------------------+
| title | location |
+=====================================+====================+
| Ingénieur DevOps Cloud Confirmé H/F | Paris et sa région |
+-------------------------------------+--------------------+
| Extia | France |
+-------------------------------------+--------------------+
| MBTI | |
+-------------------------------------+--------------------+
| Moving Motivators | |

SFEIR: il y a 2 qui sautent, j'i ali'mpression car le décupage fait perdre des élements, il faut que ça se recoupe.
+--------------------------+------------+
| title | location |
+==========================+============+
| API Architect | Paris |
+--------------------------+------------+
| Developpeur.se Nodejs | Paris |
+--------------------------+------------+
| Java Software Engineer | Paris |
+--------------------------+------------+
| Tech Lead Java | Paris |
+--------------------------+------------+
| Trainer Kubernetes | Paris |
+--------------------------+------------+
| Cloud & Data Engineer | Paris |
+--------------------------+------------+
| Tech Lead Data | Paris |
+--------------------------+------------+
| Tech Lead Front-End | Paris |
+--------------------------+------------+
| Tech Lead Front-End | Paris |
+--------------------------+------------+
| Developpeur.se Fullstack | Paris |
+--------------------------+------------+

WIREMIND: il y a 2 qui sautent aussi à cause de cookies

@Joyce-Tchamdjou
Copy link

Le cas de Dior nécessite un type de scrapper complètement différent de ceux qui ont été faits jusqu'ici parce que c'est un next-scroll. Donc lorsqu'on clique sur "Next", la page ne se recharge pas complètement mais juste s'allonge.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
Projects
Status: In Progress
Development

When branches are created from issues, their pull requests are automatically linked.

5 participants