LLM et recherche d’information scientifique : une valeur ajoutée encore incertaine

2024-02-07

http://musingsaboutlibrarianship.blogspot.com/2024/01/things-i-am-still-wondering-about.html

Aaron Tay évoque l’usage de grands modèles de langue (la fameuse « intelligence artificielle générative ») pour augmenter les moteurs de recherche scientifique : c’est la Retrieval Augmented Generation (RAG), ou recherche sémantique (semantic search). Pour l’instant, sur le plan technique le processus reste fragile. Surtout, la valeur ajoutée n’est pas claire :

“Semantic Search can become the third major technique, next to keyword searching and citation searching that can be used to help improve recall and precision for evidence synthesis searching. At this point, it’s still unclear how much Semantic Search techniques help more once you have done proper keyword searching AND citation chasing […] The ability of systems to extract direct answers with citations in short paragraphs will probably be less impactful than expected at least for academic use. […] Either you already know the domain well, in which case, the system’s one paragraph direct answer is likely to be clearly inferior to what you know. […] if you are new to a domain, you can’t trust what is generated and even if you CAN, you probably won’t because you need to read and internalize the knowledge yourself, so at best it gives you a start.”« La recherche sémantique a le potentiel pour devenir la troisième grande technique à notre disposition, après la recherche par mots-clés et la recherche par citations ; elle pourrait notamment être utilisée pour améliorer les états de l’art. Toutefois, on ne sait pas encore vraiment ce que les techniques de recherche sémantique apportent en plus […] L’idée est de présenter des résultats de recherche sous forme de réponses à une question, avec un court paragraphe et des citations ; mais l’utilité de cela est incertaine, du moins pour une utilisation académique […] Soit vous connaissez déjà bien le domaine, auquel cas la qualité de l’information sera probablement nettement inférieure à ce que vous savez […] Et si vous êtes nouveau dans un domaine, vous ne pouvez pas vraiment faire confiance à ce qui est généré, et vous avez besoin de lire et d’intérioriser les connaissances par vous-même, donc au mieux ces outils vous donnent un point de départ. »