Large expert-curated database for benchmarking document similarity detection in biomedical literature search
Brown P., Tan A-C., El-Esawi MA., Liehr T., Blanck O., Gladue DP., Almeida GMF., Cernava T., Sorzano CO., Yeung AWK., Engel MS., Chandrasekaran AR., Muth T., Staege MS., Daulatabad SV., Widera D., Zhang J., Meule A., Honjo K., Pourret O., Yin C-C., Zhang Z., Cascella M., Flegel WA., Goodyear CS., van Raaij MJ., Bukowy-Bieryllo Z., Campana LG., Kurniawan NA., Lalaouna D., Hüttner FJ., Ammerman BA., Ehret F., Cobine PA., Tan E-C., Han H., Xia W., McCrum C., Dings RPM., Marinello F., Nilsson H., Nixon B., Voskarides K., Yang L., Costa VD., Bengtsson-Palme J., Bradshaw W., Grimm DG., Kumar N., Martis E., Prieto D., Sabnis SC., Amer SEDR., Liew AWC., Perco P., Rahimi F., Riva G., Zhang C., Devkota HP., Ogami K., Basharat Z., Fierz W., Siebers R., Tan K-H., Boehme KA., Brenneisen P., Brown JAL., Dalrymple BP., Harvey DJ., Ng G., Werten S., Bleackley M., Dai Z., Dhariwal R., Gelfer Y., Hartmann MD., Miotla P., Tamaian R., Govender P., Gurney-Champion OJ., Kauppila JH., Zhang X., Echeverría N., Subhash S., Sallmon H., Tofani M., Bae T., Bosch O., Cuív PO., Danchin A., Diouf B., Eerola T., Evangelou E., Filipp FV., Klump H., Kurgan L., Smith SS., Terrier O., Tuttle N., Ascher DB., Janga SC., Schulte LN., Becker D., Browngardt C., Bush SJ., Gaullier G., Ide K., Meseko C., Werner GDA., Zaucha J., Al-Farha AA., Greenwald NF., Popoola SI., Rahman MS., Xu J., Yang SY., Hiroi N., Alper OM., Baker CI., Bitzer M., Chacko G., Debrabant B., Dixon R., Forano E., Gilliham M., Kelly S., Klempnauer K-H., Lidbury BA., Lin MZ., Lynch I., Ma W., Maibach EW., Mather DE., Nandakumar KS., Ohgami RS., Parchi P., Tressoldi P., Xue Y., Armitage C., Barraud P., Chatzitheochari S., Coelho LP., Diao J., Doxey AC., Gobet A., Hu P., Kaiser S., Mitchell KM., Salama MF., Shabalin IG., Song H., Stevanovic D., Yadollahpour A., Zeng E., Zinke K., Alimba CG., Beyene TJ., Cao Z., Chan SS., Gatchell M., Kleppe A., Piotrowski M., Torga G., Woldesemayat AA., Cosacak MI., Haston S., Ross SA., Williams R., Wong A., Abramowitz MK., Effiong A., Lee S., Abid MB., Agarabi C., Alaux C., Albrecht DR., Atkins GJ., Beck CR., Bonvin AMJJ., Bourke E., Brand T., Braun RJ., Bull JA., Cardoso P., Carter D., Delahay RM., Ducommun B., Duijf PHG., Epp T., Eskelinen E-L., Fallah M., Farber DB., Fernandez-Triana J., Feyerabend F., Florio T., Friebe M., Furuta S., Gabrielsen M., Gruber J., Grybos M., Han Q., Heinrich M., Helanterä H., Huber M., Jeltsch A., Jiang F., Josse C., Jurman G., Kamiya H., de Keersmaecker K., Kristiansson E., de Leeuw F-E., Li J., Liang S., Lopez-Escamez JA., Lopez-Ruiz FJ., Marchbank KJ., Marschalek R., Martín CS., Miele AE., Montagutelli X., Morcillo E., Nicoletti R., Niehof M., O’Toole R., Ohtomo T., Oster H., Palma J-A., Paterson R., Peifer M., Portilla M., Portillo MC., Pritchard AL., Pusch S., Raghava GPS., Roberts NJ., Ross K., Schuele B., Sergeant K., Shen J., Stella A., Sukocheva O., Uversky VN., Vanneste S., Villet MH., Viveiros M., Vorholt JA., Weinstock C., Yamato M., Zabetakis I., Zhao X., Ziegler A., Aizat WM., Atlas L., Bridges KM., Chakraborty S., Deschodt M., Domingues HS., Esfahlani SS., Falk S., Guisado JL., Kane NC., Kueberuwa G., Lau CL., Liang D., Liu E., Luu AM., Ma C., Ma L., Moyer R., Norris AD., Panthee S., Parsons JR., Peng Y., Pinto IM., Reschke CR., Sillanpää E., Stewart CJ., Uhle F., Yang H., Zhou K., Zhu S., Ashry M., Bergsland N., Berthold M., Chen C-E., Colella V., Cuypers M., Eskew EA., Fan X., Gajda M., Gonzálezlez-Prendes R., Goodin A., Graham EB., Groen EJN., Gutiérrez-Sacristán A., Habes M., Heffler E., Higginbottom DB., Janzen T., Jayaraman J., Jibb LA., Jongen S., Kinyanjui T., Koleva-Kolarova RG., Li Z., Liu Y-P., Lund BA., Lussier AA., Ma L., Mier P., Moore MD., Nagler K., Orme MW., Pearson JA., Prajapati AS., Saito Y., Tröder SE., Uchendu F., Verloh N., Voutchkova DD., Abu-Zaid A., Bakkach J., Baumert P., Dono M., Hanson J., Herbelet S., Hobbs E., Kulkarni A., Kumar N., Liu S., Loft ND., Reddan T., Senghore T., Vindin H., Xu H., Bannon R., Chen B., Cheung JTK., Cooper J., Esnakula AK., Feghali KA., Ghelardi E., Gnasso A., Horbar J., Lai HM., Li J., Ma L., Ma R., Pan Z., Peres MA., Pranata R., Seow E., Sydes M., Testoni I., Westermair AL., Yang Y., Afnan M., Albiol J., Albuquerque LG., Amiya E., Amorim RM., An Q., Andersen SU., Aplin JD., Argyropoulos C., Asmann YW., Assaeed AM., Atanasov AG., Atchison DA., Avery SV., Avillach P., Baade PD., Backman L., Badie C., Baldi A., Ball E., Bardot O., Barnett AG., Basner M., Batra J., Bazanova OM., Beale A., Beddoe T., Bell ML., Berezikov E., Berners-Price S., Bernhardt P., Berry E., Bessa TB., Billington C., Birch J., Blakely RD., Blaskovich MAT., Blum R., Boelaert M., Bogdanos D., Bosch C., Bourgoin T., Bouvard D., Boykin LM., Bradley G., Braun D., Brownlie J., Brühl A., Burt A., Butler LM., Byrareddy SN., Byrne HJ., Cabantous S., Calatayud S., Candal E., Carlson K., Casillas S., Castelvetro V., Caswell PT., Cavalli G., Cerovsky V., Chagoyen M., Chen C-S., Chen DF., Chen H., Chen H., Chen J-T., Chen Y., Cheng C., Cheng J., Chinapaw M., Chinopoulos C., Cho WCS., Chong L., Chowdhury D., Chwalibog A., Ciresi A., Cockcroft S., Conesa A., Cook PA., Cooper DN., Coqueret O., Corea EM., Costa E., Coupland C., Crawford SY., Cruz AD., Cui H., Cui Q., Culver DC., D’Angiulli A., Dahms TES., Daigle F., Dalgleish R., Danielsen HE., Darras S., Davidson SM., Day DA., Degirmenci V., Demaison L., Devriendt K., Ding J., Dogan Y., Dong XC., Donner CF., Dressick W., Drevon CA., Duan H., Ducho C., Dumaz N., Dwarakanath BS., Ebell MH., Eisenhardt S., Elkum N., Engel N., Erickson TB., Fairhead M., Faville MJ., Fejzo MS., Festa F., Feteira A., Flood-Page P., Forsayeth J., Fox SA., Franks SJ., Frentiu FD., Frilander MJ., Fu X., Fujita S., Galea I., Galluzzi L., Gani F., Ganpule AP., García-Alix A., Gedye K., Giordano M., Giunta C., Gleeson PA., Goarant C., Gong H., Gora D., Gough MJ., Goyal R., Graham KE., Grande-Pérez A., Graves PM., Greidanus H., Grice D., Grunau C., Gumulya Y., Guo Y., Gurevich VV., Gusev O., Hacker E., Hage SR., Hagen G., Hahn S., Haller DM., Hammerschmidt S., Han J., Han R., Handfield M., Hapuarachchi HC., Harder T., Hardingham JE., Heck M., Heers M., Hew KF., Higuchi Y., Hilaire CS., Hilton R., Hodzic E., Hone A., Hongoh Y., Hu G., Huber HP., Hueso LE., Huirne J., Hurt L., Idborg H., Ikeo K., Ingley E., Jakeman PM., Jensen A., Jia H., Jia H., Jia S., Jiang J., Jiang X., Jin Y., Jo D., Johnson AM., Johnston M., Jonscher KR., Jorens PG., Jorgensen JOL., Joubert JW., Jung S-H., Junior AM., Kahan T., Kamboj SK., Kang Y-K., Karamanos Y., Karp NA., Kelly R., Kenna R., Kennedy J., Kersten B., Khalaf RA., Khalid JM., Khatlani T., Khider T., Kijanka GS., King SRB., Kluz T., Knox P., Kobayashi T., Koch K-W., Kohonen-Corish MRJ., Kong X., Konkle-Parker D., Korpela KM., Kostrikis LG., Kraiczy P., Kratz H., Krause G., Krebsbach PH., Kristensen SR., Kumari P., Kunimatsu A., Kurdak H., Kwon YD., Lachat C., Lagisz M., Laky B., Lammerding J., Lange M., Larrosa M., Laslett AL., LeClair EE., Lee K-W., Lee M-Y., Lee M-S., Li G., Li J., Lieb K., Lim YY., Lindsey ML., Line P-D., Liu D., Liu F., Liu H., Liu H., Lloyd VK., Lo T-W., Locci E., Loidl J., Lorenzen J., Lorkowski S., Lovell NH., Lu H., Lu W., Lu Z., Luengo GS., Lundh L-G., Lysy PA., Mabb A., Mack HG., Mackey DA., Mahdavi SR., Maher P., Maher T., Maity SN., Malgrange B., Mamoulakis C., Mangoni AA., Manke T., Manstead ASR., Mantalaris A., Marsal J., Marschall H-U., Martin FL., Martinez-Raga J., Martinez-Salas E., Mathieu D., Matsui Y., Maza E., McCutcheon JE., McKay GJ., McMillan B., McMillan N., Meads C., Medina L., Merrick BA., Metzger DW., Meunier FA., Michaelis M., Micheau O., Mihara H., Mintz EM., Mizukami T., Moalic Y., Mohapatra DP., Monteiro A., Montes M., Moran JV., Morozov SY., Mort M., Murai N., Murphy DJ., Murphy SK., Murray SA., Naganawa S., Nammi S., Nasios G., Natoli RM., Nguyen F., Nicol C., van Nieuwerburgh F., Nilsen EB., Nobile CJ., O’Mahony M., Ohlsson S., Olatunbosun O., Olofsson P., Ortiz A., Ostrikov K., Otto S., Outeiro TF., Ouyang S., Paganoni S., Page A., Palm C., Paradies Y., Parsons MH., Parsons N., Pascal P., Paul E., Peckham M., Pedemonte N., Pellizzon MA., Petrelli M., Pichugin A., Pinto CJC., Plevris JN., Pollesello P., Polz M., Ponti G., Porcelli P., Prince M., Quinn GP., Quinn TJ., Ramula S., Rappsilber J., Rehfeldt F., Reiling JH., Remacle C., Rezaei M., Riddick EW., Ritter U., Roach NW., Roberts DD., Robles G., Rodrigues T., Rodriguez C., Roislien J., Roobol MJ., Rowe JA., Ruepp A., van Ruitenbeek J., Rust P., Saad S., Sack GH., Santos M., Saudemont A., Sava G., Schrading S., Schramm A., Schreiber M., Schuler S., Schymkowitz J., Sczyrba A., Seib KL., Shi H-P., Shimada T., Shin J-S., Shortt C., Silveyra P., Skinner D., Small I., Smeets PAM., So P-W., Solano F., Sonenshine DE., Song J., Southall T., Speakman JR., Srinivasan MV., Stabile LP., Stasiak A., Steadman KJ., Stein N., Stephens AW., Stewart DI., Stine K., Storlazzi C., Stoynova NV., Strzalka W., Suarez OM., Sultana T., Sumant AV., Summers MJ., Sun G., Tacon P., Tanaka K., Tang H., Tanino Y., Targett-Adams P., Tayebi M., Tayyem R., Tebbe CC., Telfer EE., Tempel W., Teodorczyk-Injeyan JA., Thijs G., Thorne S., Thrift AG., Tiffon C., Tinnefeld P., Tjahjono DH., Tolle F., Toth E., del Tredici AL., Tsapas A., Tsirigotis K., Turak A., Tzotzos G., Udo EE., Utsumi T., Vaidyanathan S., Vaillant M., Valsesia A., Vandenbroucke RE., Veiga FH., Vendrell M., Vesk PA., Vickers P., Victor VM., Villemur R., Vohl M-C., Voolstra CR., Vuillemin A., Wakelin S., Waldron L., Walsh LJ., Wang AY., Wang F., Wang Y., Watanabe Y., Weigert A., Wen J-C., Wham C., White EP., Wiener J., Wilharm G., Wilkinson S., Willmann R., Wilson C., Wirth B., Wojan TR., Wolff M., Wong BM., Wu T-W., Wuerbel H., Xiao X., Xu D., Xu JW., Xu J., Xue B., Yalcin S., Yan H., Yang E-C., Yang S., Yang W., Ye Y., Ye Z-Q., Yli-Kauhaluoma J., Yoneyama H., Yu Y., Yuan G-C., Yuh C-H., Zaccolo M., Zeng C., Zevnik B., Zhang C., Zhang L., Zhang L., Zhang Y., Zhang Y., Zhang Z., Zhang Z-Y., Zhao Y., Zhou M., Zuberbier T., Aanei CM., Ahmad R., Al-Lawama M., Alanio A., Allardyce J., Alonso-Caneiro D., Atack JM., Baier D., Bansal A., Benezeth Y., Berbesque C., Berrevoet F., Biedermann PHW., Bijleveld E., Bittner F., Blombach F., van den Bos W., Boudreau SA., Bramoweth AD., Braubach O., Cai Y., Campbell M., Cao Z., Catry T., Chen X., Cheng S., Chung H-J., Chávez-Fumagalli MA., Conway A., Costa BM., Cyr N., Dean LT., Denzel MS., Dlamini SV., Dudley KJ., Dufies M., Ecke T., Eckweiler D., Eixarch E., El-Adawy H., Emmrich JV., Eustace AJ., Falter-Wagner CM., Fuss J., Gao J., Gill MR., Gloyn L., Goggs R., Govinden U., Greene G., Greiff V., Grundle DS., Grüneberg P., Gumede N., Haore G., Harrison P., Hoenner X., Hojsgaard D., Hori H., Ikonomopoulou MP., Jeurissen P., Johnson DM., Kabra D., Kamagata K., Karmakar C., Kasian O., Kaye LK., Khan MM., Kim Y-M., Kish JK., Kobold S., Kohanbash G., Kohls G., Kugler J-M., Kumar G., Lacy-Colson J., Latif A., Lauschke VM., Li B., Lim CJ., Liu F., Liu X., Lu J-J., Lu Q., Mahavadi P., Marzocchi U., McGarrigle CA., van Meerten T., Min R., Moal I., Molari M., Molleman L., Mondal SR., van de Mortel T., Moss WN., Moultos OA., Mukherjee M., Nakayama K., Narayan E., Navaratnarajah ., Neumann P-A., Nie J., Nie Y., Niemeyer F., Nolan F., Nwaiwu O., Oldenmenger WH., Olumayede E., Ou J., Pallebage-Gamarallage M., Pearce SP., Pelkonen T., Pelleri MC., Pereira JL., Pheko M., Pinto KA., Piovesan A., Pluess M., Podolsky IM., Prescott J., Qi D., Qi X., Raikou VD., Ranft A., Rhodes J., Rotge J-Y., Rowe AD., Saggar M., Schuon RA., Shahid S., Shalchyan V., Shirvalkar P., Shiryayev O., Singh J., Smout MJ., Soares A., Song C., Srivastava K., Srivastava RK., Sun J., Szabo A., Szymanski W., Tai CNP., Takeuchi H., Tanadini-Lang S., Tang F., Tao W., Theron G., Tian CF., Tian Y-S., Tuttle LM., Valenti A., Verlot P., Walker M., Wang J., Welter D., Winslade M., Wu D., Wu Y-R., Xiao H., Xu B., Xu J., Xu Z., Yang D., Yang M., Yankilevich P., You Y., Yu C., Zhan J., Zhang G., Zhang K., Zhang T., Zhang Y., Zhao G., Zhao J., Zhou X., Zhu Z., Ajani PA., Anazodo UC., Bagloee SA., Bail K., Bar I., Bathelt J., Benkeser D., Bernier ML., Blanchard AM., Boakye DW., Bonatsos V., Boon MH., Bouboulis G., Bromfield E., Brown J., Bul KCM., Burton KJ., Butkowski EG., Carroll G., Chao F., Charrier EE., Chen X., Chen Y-C., Chenguang ., Choi JR., Christoffersen T., Comel JC., Cosse C., Cui Y., van Dessel P., Dhaval ., Diodato D., Duffey M., Dutt A., Egea LG., El-Said M., Faye M., Fernandez-Fernandez B., Foley KG., Founou LL., Fu F., Gadelkareem RA., Galimov E., Garip G., Gemmill A., Gouil Q., Grey J., Gridneva Z., Grothe MJ., Grébert T., Guerrero F., Guignard L., Haenssgen MJ., Hasler D., Holgate JY., Huang A., Hulse-Kemp AM., Jean-Quartier C., Jeon S-M., Jia Y., Jutzeler C., Kalatzis P., Karim M., Karsay K., Keitel A., Kempe A., Keown JR., Khoo CM., Khwaja N., Kievit RA., Kosanic A., Koutoukidis DA., Kramer P., Kumar D., Kırağ N., Lanza G., Le TD., Leem JW., Leightley D., Leite A., Lercher L., Li Y., Lim R., Lima LRA., Lin L., Ling T., Liu Y., Liu Z., Lu Y., Lum FM., Luo H., Machhi J., Macleod A., Macwan I., Madala HR., Madani N., de Maio N., Makowiecki K., Mallinson DJ., Margelyte R., Maria C., Markonis Y., Marsili L., Mavoa S., McWilliams L., Megersa M., Mendes CSM., Menichetti J., Mercieca-Bebber R., Miller JJ., Minde D-PM., Minges A., Mishra E., Mishra VR., Moores C., Morrice N., Moskalensky AE., Navarin N., Negera E., Nolet P., Nordberg A., Nordén R., Nowicki JP., Olova N., Olszewski P., Onzima R., Pan C-L., Park C., Park DI., Park S., Patil CD., Pedro SA., Perry SR., Peter J., Peterson BM., Pezzuolo A., Pozdnyakov I., Qian S., Qin L., Rafe A., Raote I., Raza A., Rebl H., Refai O., Regan T., Richa T., Richardson MF., Robinson KR., Rossoni L., Rouet R., Safaei S., Schneeberger PHH., Schwotzer D., Sebastian A., Selinski J., Seltmann S., Sha F., Shalev N., Shang J-L., Singer J., Singh M., Smith T., Solomon-Moore E., Song L., Soraggi S., Stanley R., Steckhan N., Strobl F., Subissi L., Supriyanto I., Surve CR., Suzuki T., Syme C., Sörelius K., Tang Y., Tantawy M., Tennakoon S., Teseo S., Toelzer C., Tomov N., Tovar M., Tran L., Tripathi S., Tuladhar AM., Ukubuiwe AC., Ung COL., Valgepea K., Vatanparast H., Vidal A., Wang F., Wang Q., Watari R., Webster R., Webster R., Wei J., Wibowo D., Wingenbach TSH., Xavier RM., Xiao S., Xiong P., Xu S., Xu S., Yao R., Yao W., Yin Q., Yu Y., Zaitsu M., Zeineb Z., Zhan X-Y., Zhang J., Zhang R., Zhang W., Zhang X., Zheng S., Zhou B., Zhou X., Ahmad H., Akinwumi SA., Albery GF., Alhowimel A., Ali J., Alshehri M., Alsuhaibani M., Anikin A., Azubuike SO., Bach-Mortensen A., Baltiansky L., Bartas M., Belachew KY., Bhardwaj V., Binder K., Bland NS., Boah M., Bullen B., Calabrò GE., Callahan TJ., Cao B., Chalmers K., Chang W., Che Z., Chen ATY., Chen H., Chen H., Chen Y., Chen Z., Choi Y., Chowdhury MAK., Christensen MR., Cooke RSC., Cottini M., Covington NV., Cunningham C., Delarocque J., Devos L., Dhar AR., Ding K-F., Dong K., Dong Z., Dreyer N., Ekstrand C., Fardet T., Feleke BE., Feurer T., Freitas A., Gao T., Asefa NG., Giganti F., Grabowski P., Guerra-Mora JR., Guo C., Guo X., Gupta H., He S., Heijne M., Heinemann S., Hogrebe A., Huang Z., Iskander-Rizk S., Iyer LM., Jahan Y., James AS., Joel E., Joffroy B., Jégousse C., Kambondo G., Karnati P., Kaya C., Ke A., Kelly D., Kickert R., Kidibule PE., Kieselmann JP., Kim HJ., Kitazawa T., Lamberts A., Li Y., Liang H., Linn SN., Litfin T., Liusuo W., Lygirou V., Mahato AK., Mai Z-M., Major RW., Mali S., Mallis P., Mao W., Mao W., Marvin-Dowle K., Mason LD., Merideth B., Merino-Plaza MJ., Merlaen B., Messina R., Mishra AK., Muhammad J., Musinguzi C., Nanou A., Naqash A., Nguyen JT., Nguyen TTH., Ni D., Nida ., Notcovich S., Ohst B., Ollivier QR., Osses DF., Peng X., Plantinga A., Pulia M., Rafiq M., Raman A., Raucher-Chéné D., Rawski R., Ray A., Razak LA., Rudolf K., Rusch P., Sadoine ML., Schmidt A., Schurr R., Searles S., Sharma S., Sheehan B., Shi C., Shohayeb B., Sommerlad A., Strehlow J., Sun X., Sundar R., Taherzadeh G., Tahir NDM., Tang J., Testa J., Tian Z., Tingting Q., Verheijen GP., Vickstrom C., Wang T., Wang X., Wang Z., Wei P., Wilson A., Wyart ., Yassine A-A., Yousefzadeh A., Zare A., Zeng Z., Zhang C., Zhang H., Zhang L., Zhang T., Zhang W., Zhang Z., Zhou J., Zhu D., Adamo V., Adeyemo AA., Aggelidou M., Al-Owaifeer AM., Al-Riyami AZ., Alzghari SK., Andersen V., Angus K., Asaduzzaman M., Asady H., Ato D., Bai X., Baines RL., Ballantyne M., Ban B., Beck J., Ben-Nafa W., Black E., Blancher A., Blankstein R., Bodagh N., Borges PAV., Brooks A., Brox-Ponce J., Brunetti A., Canham CD., Carninci P., Carvajal R., Chang SC., Chao J., Chatterjee P., Chen H., Chen Y-C., Chhatriwalla AK., Chikowe I., Chuang T-J., Collevatti RG., Valera-Cornejo DA., Cuenda A., Dao M., Dauga D., Deng Z., Devkota K., Doan LV., Elewa YHA., Fan D., Faruk M., Feifei S., Ferguson TS., Fleres F., Foster EJ., Foster CS., Furer T., Gao Y., Garcia-Rivera EJ., Gazdar A., George RB., Ghosh S., Gianchecchi E., Gleason JM., Hackshaw A., Hall A., Hall R., Harper P., Hogg WE., Huang G., Hunter KE., IJzerman AP., Jesus C., Jian G., Jr JSL., Kanj SS., Kaur H., Kelly S., Kheir F., Kichatova VS., Kiyani M., Klein R., Kovesi T., Kraschnewski JL., Kumar AP., Labutin D., Lazo-Langner A., Leclercq G., Li M., Li Q., Li T., Li Y., Liao W-T., Liao Z-Y., Lin J., Lizer J., Lobreglio G., Lowies C., Lu C., Majeed H., Martin A., Martinez-Sobrido L., Meresh E., Middelveen M., Mohebbi A., Mota J., Mozaheb Z., Muyaya L., Nandhakumar A., Ng SHX., Obeidat M., Oh D-H., Owais M., Pace-Asciak P., Panwar A., Park C., Patterson C., Penagos-Tabaree F., Pianosi PT., Pinzi V., Pridans C., Psaroulaki A., Pujala RK., Pulido-Arjona L., Qi P-F., Rahman P., Rai NK., Rassaf T., Refardt J., Ricciardi W., Riess O., Rovas A., Sacks FM., Saleh S., Sampson C., Schmutz A., Sepanski R., Sharma N., Singh M., Spearman P., Subramaniapillai M., Swali R., Tan CM., Tellechea JI., Thomas L-M., Tong X., Vavvas DG., Veys R., Vitriol V., Wang H-D., Wang J., Wang J., Waugh J., Webb SA., Williams BA., Workman AD., Xiang T., Xie L-X., Xu J., Xu T., Yang C., Yoon JG., Yuan CM., Zaritsky A., Zhang Y., Zhao H., Zuckerman H., Lyu R., Pullan W., Zhou Y.
Abstract Document recommendation systems for locating relevant literature have mostly relied on methods developed a decade ago. This is largely due to the lack of a large offline gold-standard benchmark of relevant documents that cover a variety of research fields such that newly developed literature search techniques can be compared, improved and translated into practice. To overcome this bottleneck, we have established the RElevant LIterature SearcH consortium consisting of more than 1500 scientists from 84 countries, who have collectively annotated the relevance of over 180 000 PubMed-listed articles with regard to their respective seed (input) article/s. The majority of annotations were contributed by highly experienced, original authors of the seed articles. The collected data cover 76% of all unique PubMed Medical Subject Headings descriptors. No systematic biases were observed across different experience levels, research fields or time spent on annotations. More importantly, annotations of the same document pairs contributed by different scientists were highly concordant. We further show that the three representative baseline methods used to generate recommended articles for evaluation (Okapi Best Matching 25, Term Frequency–Inverse Document Frequency and PubMed Related Articles) had similar overall performances. Additionally, we found that these methods each tend to produce distinct collections of recommended articles, suggesting that a hybrid method may be required to completely capture all relevant articles. The established database server located at https://relishdb.ict.griffith.edu.au is freely available for the downloading of annotation data and the blind testing of new methods. We expect that this benchmark will be useful for stimulating the development of new powerful techniques for title and title/abstract-based search engines for relevant articles in biomedical research.
