Долгое время лелеял себя надеждой, что смогу построить эффективную базу данных в формате HDF. А что? Очень быстрая, прекрасно интегрируется с pandas - что еще нужно, если основные операции завязаны на pandas?
Проблема в одном - при попытке вносить изменения в таблицы база начинает неконтролируемо расти. Даже при повторном сохранении одногиговой базы, в которую не было добавлено ни одной строчки, файл, ничтоже сумняшеся, прибавляет в весе 150-200 мегабайт. Облазил документацию и стаковерфлоу в поисках правильного рецепта приготовления HDF, но не преуспел.
И только недавно наткнулся на дельный совет - не старайтесь использовать hdf как базу данных. Этот формат отлично приспособлен для быстрого сохранения большого датафрейма и быстрого же его чтения, но апдейт - не про него.
Плюнул я на все эти свои эксперименты и вернулся к старому доброму SQL.