Teza/cel artykułu – Celem artykułu jest przedstawienie metody deduplikacji/ łączenia (ang. deduplication/linkage) rekordów opisujących jednostki bibliograficzne w bazach danych opartej na miarach podobieństw łańcuchów znakowych. Algorytm opracowano na podstawie własnych doświadczeń nabytych podczas tworzenia bibliograficznej bazy danych oraz podczas realizacji badań bibliometrycznych, na podstawie publicznie dostępnych bibliograficznych baz danych. Formalny opis metody zilustrowano przykładami zaczerpniętymi z krajowej bibliograficznej bazy CYTBIN. Metody badawcze – Opracowanie metody wymagało przeglądu architektur informacyjnych wybranych krajowych bibliograficznych baz danych, określenia typologii problemów ich dotykających, wynikających nie tylko z przyjętych modeli składowania danych, ale i budowy graficznych interfejsów użytkownika, którymi są zasilane, analizy i wyboru miar podobieństw łańcuchów znakowych oraz ostatecznie zaproponowania miary złożonej umożliwiającej ewaluację podobieństwa rekordów bibliograficznych w oparciu o wartości ich atrybutów składowych. Wyniki – Przedstawione na przykładzie danych pochodzących z wybranej bazy bibliograficznej wyniki pozwoliły empirycznie zweryfikować użyteczność zaproponowanej metody. Dodatkowo dokonano analizy rozkładu podobieństwa rekordów bibliograficznych bazy CYTBIN określanego na podstawie zaproponowanej metody złożonej i metody opartej na mierze Jaro-Winkler wyliczanej dla tytułów jednostek bibliograficznych. Wnioski – Zaproponowana metoda, po dostrojeniu jej parametrów do specyfiki (występujących anomalii) konkretnych baz bibliograficznych, może być wprost zastosowana do poprawy jakości opisów bibliograficznych w nich gromadzonych, zarówno w proaktywnym modelu pracy (przed zatwierdzeniem opisu przez operatora), jak i modelu reaktywnym (weryfikacja wszystkich lub nowo zgromadzonych rekordów wykonywana np. w czasie mniejszego obciążenia systemu w dobowych odstępach czasu).