Keywords clusterisation

  • closed
  • 1.000 € à 10.000 €
  • France
  • 04 février 2020 à 16h30

Keywords clusterisation

Bonjour Je recherche un expert en data science / analyse de données pour m'aider à faire ce qui suit: a) à partir d'une liste de X mots-clés (avec X = un nombre de mots-clés compris entre 10,000 et 150,000; et "mots-clés" = une liste d'expressions utilisées par les internautes pour effectuer des recherches dans google), filtrer et supprimer tous ceux qui ne le sont pas une partie du même champ sémantique (après avoir "normalisé initialement cette liste - stemming / normalisé / nettoyé / etc ...) SOIT par: i) analyse de ces mots clés à l'aide de corpus de textes pour former l'algorithme obtenus à partir, par exemple, de sites Web spécifiques / wikipedia et en utilisant R / Python ou Word2Vec ou la nouvelle API de Google disponible sur [Url visible pour les membres Pro] ) OU par: ii. recherche d'expressions dans cette liste de mots clés et, si trouvé, flagger le mot clé pour suppression (par exemple, si la liste des mots clés à nettoyer traitait du domaine du PC en anglais, certaines des expressions à identifier dans celle-ci pour la "nettoyer" seraient par exemple "fruit" "peler" "salade" "sucré" "gros" "antioxydant" "vitamines" etc ... afin de supprimer tous les mots concernant la "pomme le fruit" "ou" la "Big Apple" ~ "New York" pour au final bien n'avoir qu'une liste de mots-clés se rapportant à l'industrie informatique ... Un autre exemple serait de supprimer tous les mots se rapportant au domaine du XXX / industrie du porno ainsi qu'à celui des mathématiques (exposant / formules / etc ...) si par exemple la liste de 30000s + mots-clés en question traitait d'une école telle que "Ecole x les mines"!) OU ASSOCIER LES DEUX afin de pouvoir supprimer d'abord les mots vides génériques, puis ceux qui restent mais ne font pas partie d'une industrie spécifique ensuite ... (Je pourrai partager / montrer des exemples spécifiques et réels pour cette première étape ...) b) à partir de cette nouvelle liste "nettoyée", il faut ensuite CATÉGORISER / GROUPER les mots-clés restants, en fonction d'un certain nombre de méthodes, y compris la recherche d'expressions basées à nouveau sur des listes générées manuellement / indexation LSI / synonymes / prédiction de recherche google et recherches associées / Word2vec / API Google / ???? Ainsi, si nous revenons à la première liste ci-dessus... Une fois nettoyée, j'aimerais pouvoir classer ensuite les X mots-clés restants par (ce sont des exemples - chaque liste aura ses propres types de catégories): i. types d'ordinateurs (mobile / bureau / tablette / mainframe / etc ...) recherchant soit des instances (et des synonymes) de ces expressions dans les mots-clés OU mots sémantiquement proches OU TF-IDF à l'aide de textes de formation, ou .... ii. OS utilisé iii. résolution d'écran (en utilisant i. ci-dessus comme proxy pour la taille si les informations ne sont pas disponibles dans le texte ???) iv. gamme de prix (dito) v. couleurs vi. etc... Ces catégories peuvent être indépendantes ou NON ... Par exemple, si je travaillais sur une liste de mots-clés dans l'espace des Animaux, je pourrais avoir les catégories suivantes à générer: i. nom de l'animal (disons, maquereau, lotte, homard, langouste, crabe, dalmatien, pointeur, angora, etc ...) ii. à partir de ces noms d'animaux, on peut déduire une DEUXIÈME catégorie: espèce ... maquereau, lotte -> poisson; crabe, homard, langouste -> crustacés; dalmatien, pointeur -> chiens; angora -> chats, etc ... iii. et à partir de celles-ci, nous pouvons également déduire un certain nombre d'autres catégories (terre / mer / air; type de nourriture; etc ...) iv. mais aussi essayer de les classer par couleur, odeur, etc ... en recherchant des mots / expressions dans cette liste de mots-clés ... Je l'ai fait en utilisant Excel et, plus récemment, PowerBI ... Mais dans chaque cas, j'ai atteint la limite de ce que je peux faire ... L'un des fichiers Excel avec lequel j'ai travaillé prends 20 minutes de recalcul CHAQUE FOIS que je mets à jour les MCs des formules et effectue un "recalcul" ! :( Quand à PowerBI, j'ai aussi réussi à flinguer mon fichier de mes classifications de liste que je ne peux plus ouvrir maintenant (trop d'itérations!) :( Ce qui est frustrant c'est que ce que j'essaie d'automatiser est loin d'être nouveau / innovant! Je suis tombé sur un certain nombre d'exemples / articles d'un data scientist français qui a réussi à assembler exactement ce dont j'ai besoin (sauf la dernière partie "classification" à grande échelle - il ne fait que trier quelques 100s de KWs, et sa technique / script casse R quand je l'utilise avec mon fichier de mots-clés 30000 ! Voici tous les articles : - [Url visible pour les membres Pro] (scripts R pour supprimer les KW "stop") - [Url visible pour les membres Pro] (prétraitement des données) - [Url visible pour les membres Pro] (c'est exactement le processus de ce que j'essaie de réaliser) - [Url visible pour les membres Pro] (la partie clusterisation du processus ... Mais ça s'est cassé pour ma liste!) Si tout ce qui précède "vous parle" et que vous êtes convaincu que vous pouvez aider, VEUILLEZ REVENIR VERS MOI DÈS QUE POSSIBLE PARCE QUE J'AI BESOIN DE CET OUTIL DES QUE POSSIBLE POUR 2 DE MES CLIENTS POUR LESQUELS JE TRAVAILLE A L'HEURE ACTUELLE ... Enfin, une fois ce projet finalisé, j'ai également un certain nombre de "prochaines étapes" que j'aimerais voir développées pour étendre ce projet (y compris par exemple une liaison à Google Analytics / Google Search Console, mais aussi à d'autres API afin de générer la liste de mots-clés de manière aussi automatique que possible!). .. Dans l'espoir d'une longue et fructueuse collaboration! Txs. G.