Une vaste base de données à contenu sélectionné et organisé par des experts aux fins de l’établissement d’une méthode de référence en matière de recherche de documents biomédicaux

Citation

Brown, P., Zhou, Y., Tan, A.C., El-Esawi, M.A., Liehr, T., Blanck, O., Gladue, D.P., Almeida, G.M.F., Cernava, T., Sorzano, C.O., Yeung, A.W.K., Engel, M.S., Chandrasekaran, A.R., Muth, T., Staege, M.S., Daulatabad, S.V., Widera, D., Zhang, J., Meule, A., Honjo, K., Pourret, O., Yin, C.C., Zhang, Z., Cascella, M., Flegel, W.A., Goodyear, C.S., van Raaij, M.J., Bukowy-Bieryllo, Z., Campana, L.G., Kurniawan, N.A., Lalaouna, D., Hüttner, F.J., Ammerman, B.A., Ehret, F., Cobine, P.A., Tan, E.C., Han, H., Xia, W., McCrum, C., Dings, R.P.M., Marinello, F., Nilsson, H., Nixon, B., Voskarides, K., Yang, L., Costa, V.D., Bengtsson-Palme, J., Bradshaw, W., Grimm, D.G., Kumar, N., Martis, E., Prieto, D., Sabnis, S.C., Amer, S.E.D.R., Liew, A.W.C., Perco, P., Rahimi, F., Riva, G., Zhang, C., Devkota, H.P., Ogami, K., Basharat, Z., Fierz, W., Siebers, R., Tan, K.H., Boehme, K.A., Brenneisen, P., Brown, J.A.L., Dalrymple, B.P., Harvey, D.J., Ng, G., Werten, S., Bleackley, M., Dai, Z., Dhariwal, R., Gelfer, Y., Hartmann, M.D., Miotla, P., Tamaian, R., Govender, P., Gurney-Champion, O.J., Kauppila, J.H., Zhang, X., Echeverría, N., Subhash, S., Sallmon, H., Tofani, M., Bae, T., Bosch, O., Cuív, P.O., Danchin, A., Diouf, B., Eerola, T., Evangelou, E., Filipp, F., Klump, H., Kurgan, L., Smith, S.S., Terrier, O., Tuttle, N. (2019). Large expert-curated database for benchmarking document similarity detection in biomedical literature search. Database: The Journal of Biological Databases and Curation, [online] 2019 1-67. http://dx.doi.org/10.1093/database/baz085

Résumé en langage clair

Ces travaux ont été effectués dans le cadre des efforts internationaux déployés par le consortium RElevant LIterature SearcH (RELISH) en vue d’améliorer la pertinence des résultats de recherche de données. Un nouveau moteur de recherche permet désormais d’obtenir des recommandations de documents ou de générer des données de sortie sur des sujets de recherche biomédicale pertinents.

Résumé

© les auteurs, 2019. Publié par Oxford University Press. Les systèmes de recommandation qui aident à trouver des documents scientifiques pertinents reposent principalement sur des méthodes mises au point il y a dix ans. Cette situation s’explique en grande partie par l’absence d’un vaste référentiel hors ligne de documents pertinents couvrant une variété de domaines de recherche permettant de comparer, d’améliorer et de mettre en pratique les nouvelles techniques de recherche documentaire. Pour surmonter cette difficulté, nous avons mis en place le consortium RElevant LIterature SearcH, composé de plus de 1 500 scientifiques provenant de 84 pays, qui ont collectivement annoté la pertinence de plus de 180 000 articles figurant dans PubMed, compte tenu de l’article source. La majorité des annotations ont été effectuées par les auteurs originaux des articles sources, généralement des chercheurs très expérimentés. Les données recueillies couvrent 76 % de tous les descripteurs uniques des vedettes-matières de PubMed Medical. Aucun biais systématique n’a été observé en fonction du degré d’expérience, des domaines de recherche ni du temps consacré aux annotations. Plus important encore, les annotations des mêmes paires de documents fournies par différents scientifiques étaient hautement concordantes. Nous montrons en outre que les trois méthodes de référence représentatives utilisées pour générer des recommandations d’articles à évaluer (Okapi Best Matching 25, Term Frequency-Inverse Document Frequency et PubMed Related Articles) ont des performances globales similaires. De plus, nous avons constaté que chacune de ces méthodes avait tendance à produire des collections distinctes d’articles recommandés, ce qui laisse supposer qu’une méthode hybride pourrait être nécessaire pour trouver l’ensemble des articles pertinents. Il est possible d’accéder gratuitement au serveur de base de données établi à l’adresse https://relishdb.ict.griffith.edu.au, pour le téléchargement de données d’annotation et l’essai à l’aveugle de nouvelles méthodes. Nous nous attendons à ce que cet outil de référence contribue à stimuler la mise au point de nouvelles techniques puissantes permettant d’employer des moteurs de recherche par titre et par titre/résumé d’articles pour trouver des articles pertinents dans le domaine des sciences biomédicales.

Date de publication

2019-01-01