SARC-187 - Provide a prompt for mila-drac manual matching. #61

notoraptor · 2023-07-10T13:00:44Z

Hi @bouthilx ! This is a first code for SARC-187. Already working, but not sure about the interface. What do you think ?

bouthilx · 2023-07-10T20:13:47Z

sarc/account_matching/make_matches.py

@@ -234,6 +248,84 @@ def _matching_names(DLD_data, DD_persons, name_distance_delta_threshold):
            # assert D_person_found[cc_source] == match  # optional


+# pylint: disable=too-many-nested-blocks
+def _matching_names_with_prompt(DLD_data, DD_persons, name_distance_delta_threshold):


Je trouve ça étrange qu'on se retrouve avec 2 fonctions aussi similaire. J'aurais imaginé que _matching_names aurait été modifié pour supporter les matchs manuels lorsque nécessaire.

Pour ceci, je trouve que les deux fonctions commencent à diverger.

La fonction initiale _matching_names utilise find_exact_bag_of_words_matches qui retourne des paires de potentiels matchs, puis itère sur ces paires pour les résoudre.

La fonction que j'ai ajoutée, _matching_names_with_prompt, utilise une nouvelle fonction find_best_word_matches qui, elle retourne les 10 meilleurs matchs pour chaque mila_display_name. Son interface est donc différente de find_exact_bag_of_words_matches, et j'en ai besoin car je dois utiliser ces 10 bests matchs ensuite dans le prompt (donc, je ne peux pas utiliser les paires de matchs, à la place).

Du coup, il me semble qu'on a là deux algorithmes assez divergents. N'est-ce pas préférable de les laisser dans des fonctions séparées ?

Si je ne me trompe pas, on pourrait obtenir la même chose que _matching_names si on ignore les matches où le meilleur match à une distance d'édition trop grande. Dans ce cas, même si on travaille avec une liste de 10, si on regarde juste le premier ça revient au même que _matching_names. Est-ce que j'oublie certaines détails?

En effet, on peut juste prendre le meilleur match parmi les 10 meilleurs, et ça permet de reproduire le comportement de l'ancienne fonction.

C'est fait dans l'avant-dernier commit, et le code a été rebasé puis corrigé dans le dernier commit.

sarc/account_matching/make_matches.py

bouthilx · 2023-07-10T20:16:24Z

sarc/account_matching/make_matches.py

+                        print(mila_display_name, "(matched with)", cc_match)
+                    else:
+                        print("(ignored)")
+                    break


Il faudrait conserver les matchings manuels pour les sauvegarder dans un json.

Comment choisir le chemin du fichier JSON ? Dans le ticket, tu suggères /secrets/mila_drac_matchings.json .

Est-ce que j'utilise ce chemin tel quel (donc le dossier secrets sera créé si nécessaire dans le dossier d'exécution du script) ?

Ou bien, faut-il placer ce fichier dans un dossier spécifique défini dans une configuration ?

Il semble qu'on devra envisager de sauvegarder les matchings manuels plutôt dans une base de données MongoDB. Mais je m'interroge encore sur la structure des données à stocker dans la base (quelle collection, quels dictionnaires ou listes dans la collection, stc).

J'en ai discuté avec Pierre. Il a utilisé un fichier json finalement plutôt que la DB. Tu pourrais utiliser la fonction qu'il a écrit ici: https://github.com/mila-iqia/SARC/pull/63/files#diff-8c66ae22baf1b630c928b374f6c58cb1b1246eb8831b53fd6ae9f66ed6f6230aR314-R319. Le fichier json est donc déjà défini dans la config dans son PR.

Il va y avoir un gros conflit entre vos PR. Pierre a beaucoup amélioré le code déjà existant en même temps qu'il a ajouté le code pour le matching de superviseurs. Je crois que ça serait bien que tu rebase ta branche sur la sienne et que tu utilise le fichier json tel que défini dans son PR.

notoraptor · 2023-07-20T18:07:33Z

Salut @nurbal ! Vu que la PR de Pierre a été mergée, j'ai rebasé celle-ci. Ça devrait faciliter le reviewing.

Il restait un commentaire de Xavier ( #61 (comment) ) suggérant de sauvegarder les matchings manuels dans un fichier JSON. Mais je ne sais pas exactement quel fichier utiliser. Dois-je en prendre un parmi ceux déjà dans la config, ou bien dois-je en ajouter un nouveau ?

nurbal · 2023-07-24T20:53:29Z

Salut @nurbal ! Vu que la PR de Pierre a été mergée, j'ai rebasé celle-ci. Ça devrait faciliter le reviewing.

Il restait un commentaire de Xavier ( #61 (comment) ) suggérant de sauvegarder les matchings manuels dans un fichier JSON. Mais je ne sais pas exactement quel fichier utiliser. Dois-je en prendre un parmi ceux déjà dans la config, ou bien dois-je en ajouter un nouveau ?

Il faut utiliser le contenu du répertoire secrets en prod pour ça. Et pour les tests on utilise des mocks (cf

SARC/tests/conftest.py

Line 108 in 8e06b74

def file_contents():

) avec des données anonymes.

…to use it even without prompt.

notoraptor · 2023-07-26T19:55:07Z

@nurbal PR mise à jour ! J'ai aussi essayé d'étendre les tests pour vérifier que les nouveaux matchs sont bien sauvegardés dans le fichier JSON. J'ai essayé d'écrire un mock, je ne sais pas si c'est fait de la meilleure façon.

… JSON file.

notoraptor · 2023-07-27T01:21:23Z

Unit tests corrigés, tous les tests passent !

bouthilx reviewed Jul 10, 2023

View reviewed changes

sarc/account_matching/make_matches.py Outdated Show resolved Hide resolved

bouthilx reviewed Jul 10, 2023

View reviewed changes

notoraptor force-pushed the sarc-187-jumelage-drac branch from bdcab12 to 85ae993 Compare July 12, 2023 20:00

notoraptor force-pushed the sarc-187-jumelage-drac branch from 85ae993 to a1b8c31 Compare July 20, 2023 18:05

notoraptor added 6 commits July 26, 2023 11:28

SARC-187 - Provide a prompt for mila-drac manual matching.

97755a6

Move prompt logic in a separate function.

e2fecfb

Simplify _prompt_manual_match and add unit tests for this function

9d5aca9

Rename and update _matching_names_with_prompt() to _matching_names() …

89d1f01

…to use it even without prompt.

Fix rebasing.

59f8b9d

Fix unit test.

f7f5b4c

notoraptor force-pushed the sarc-187-jumelage-drac branch from a1b8c31 to 0e2d731 Compare July 26, 2023 18:50

notoraptor added 3 commits July 26, 2023 20:50

Remove irrelevant doc and.

be91bf7

Save manual matches in a JSON file.

cfd3b87

Extend unit test to check that new manual matches are indeed saved in…

c51b67b

… JSON file.

notoraptor force-pushed the sarc-187-jumelage-drac branch from 0940717 to c51b67b Compare July 27, 2023 00:51

Fix unit tests.

a0b521e

nurbal approved these changes Jul 27, 2023

View reviewed changes

nurbal merged commit da3ffc2 into master Jul 27, 2023
6 checks passed

notoraptor deleted the sarc-187-jumelage-drac branch November 3, 2023 17:49

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

SARC-187 - Provide a prompt for mila-drac manual matching. #61

SARC-187 - Provide a prompt for mila-drac manual matching. #61

notoraptor commented Jul 10, 2023

bouthilx Jul 10, 2023

notoraptor Jul 12, 2023

bouthilx Jul 12, 2023

notoraptor Jul 12, 2023

bouthilx Jul 10, 2023

notoraptor Jul 11, 2023

notoraptor Jul 12, 2023

bouthilx Jul 12, 2023

notoraptor commented Jul 20, 2023

nurbal commented Jul 24, 2023

notoraptor commented Jul 26, 2023

notoraptor commented Jul 27, 2023

SARC-187 - Provide a prompt for mila-drac manual matching. #61

SARC-187 - Provide a prompt for mila-drac manual matching. #61

Conversation

notoraptor commented Jul 10, 2023

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

Choose a reason for hiding this comment

notoraptor commented Jul 20, 2023

nurbal commented Jul 24, 2023

notoraptor commented Jul 26, 2023

notoraptor commented Jul 27, 2023