File: habr.md

package info (click to toggle)
yarsync 0.3.1-1
  • links: PTS, VCS
  • area: main
  • in suites: forky, sid, trixie
  • size: 620 kB
  • sloc: python: 2,612; makefile: 22
file content (284 lines) | stat: -rw-r--r-- 45,987 bytes parent folder | download | duplicates (2)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
Синхронизируем данные с yarsync
===============================

Привет, Хабр!

*yarsync* - Yet Another Rsync - предназначен для синхронизации данных между несколькими устройствами, более точно - между файловыми системами в Unix-подобных средах. *yarsync* обладает интерфейсом, похожим на *git*, и является Python-обёрткой вокруг программы *rsync*. Программа доступна под свободной лицензией GPL v3.0 на [github](https://github.com/ynikitenko/yarsync) (я автор).

*yarsync* работает там, где есть Питон и *rsync*.
Данные могут синхронизироваться локально или между разными компьютерами (в таком случае на удалённой машине также должен быть установлен *rsync*). Кроме того, файловые системы должны поддерживать жёсткие ссылки (hard links). Популярные системы, [поддерживающие жёсткие ссылки](https://github.com/ynikitenko/yarsync#hard-links) - ext2-ext4, HFS+, а также NTFS. Не поддерживают жёсткие ссылки FAT, exFAT (часто используемые на флеш-накопителях).

Говоря простыми словами, допустим, что у вас есть компьютеры дома и на даче. У вас есть папка с книгами и статьями по программированию, которые вы собирали долгие годы, и которой регулярно пользуетесь (её копиями на разных машинах). Вы хотите, чтобы эти копии были одинаковы - то есть в идеале чтобы можно было работать с данными на разных компьютерах (добавлять новые статьи, удалять ненужные, переименовывать и перемещать файлы и папки), а затем эти изменения легко переносились на другие копии. Это и делает yarsync, отслеживая изменения и позволяя эффективно синхронизировать данные через доступный сервер или внешний накопитель (жёсткий диск).

Прежде чем говорить о дизайне, стоит обозначить цели *yarsync*, а ими являются:

- удобство пользователя. Оно не только включает в себя привычный интерфейс, но и снижает риск ошибок.
- производительность. *rsync* использует эффективный алгоритм для передачи данных (передавая только различия). Уже переданные файлы не передаются вновь (даже если были перемещены или переименованы). Программа вызывается когда необходимо и не занимает постоянно процессор и память.
- надёжность. Первый выпуск *rsync* был в [1996 году](https://ru.wikipedia.org/wiki/Rsync), и с тех пор она является практически стандартной программой для синхронизации, то есть проверена множеством пользователей (к сожалению, мне не удалось найти даже примерное их число), и поддерживается и развивается по сегодняшний день (последняя версия вышла пять дней назад).
- прозрачность для системы. Служебная информация (коммиты) является обычными файлами, не требующими упаковки и распаковки.

Далее читателю предлагается оценить, насколько близко эти цели оказались достигнуты.

Начало работы
-------------

Скопируйте программу:

    $ git clone https://github.com/ynikitenko/yarsync

Внутри репозитория находится подпапка *yarsync*, в ней питоновский модуль *yarsync.py* и исполняемый файл *yarsync* (вызывающий первый). Нужно добавить путь к этим файлам, например, в *~/.bashrc*:

    export PATH=$PATH:~/yarsync/yarsync
    export PYTHONPATH=$PYTHONPATH:~/yarsync

Если программа находится и работает, то для изучения простых команд создадим новую директорию

    me@myhost$ mkdir ~/tmp
    me@myhost$ cd ~/tmp

Инициализируем репозиторий:

    me@myhost$ yarsync init
    # init configuration for myhost
    mkdir .ys
    create configuration file .ys/config.ini

Как видно из выхода программы, при инициализации создаётся скрытая директория *.ys* с конфигурационным файлом *config.ini* (он пока пуст, и подробнее мы обсудим его ниже).
Все служебные данные будут находиться только внутри директории *.ys* (также при частом использовании я использую для *yarsync* псевдоним (alias) *ys*).
Для инициализации репозитория с существующими данными можно вызвать *yarsync init* внутри нужной директории. Если репозиторий уже был инициализирован, то эта команда остаётся безопасной (то есть ничего не делает).

Различные состояния репозитория фиксируются в коммитах, которые создаются с помощью команды *commit*:

    me@myhost$ yarsync commit
    rsync -a --link-dest=../../.. --exclude=/.ys --exclude=/.ys/* /home/me/tmp/ /home/me/tmp/.ys/commits/1650462990_tmp
    mv /home/me/tmp/.ys/commits/1650462990_tmp /home/me/tmp/.ys/commits/1650462990
    mkdir /home/me/tmp/.ys/logs
    commit 1650462990 created
    
    When: Wed, 20 Apr 2022 16:56:30 MSK
    Where: me@myhost

Как можно видеть, вывод программы в данный момент довольно подробный (часто публикуются полные команды *rsync*).
Сначала создаётся временный коммит в директории *.ys/commits*. С помощью команды *rsync* в директории коммита создаются жёсткие ссылки файлов из рабочей директории (то есть всех файлов кроме служебной директории). В данный момент, поскольку файлов нет, то коммит будет пустым.
Если всё прошло удачно, то коммит перемещается в директорию без суффикса *_tmp*. Кроме того, создаётся директория *.ys/logs*, куда записывается описание коммита (в нашем случае *.ys/logs/1650462990.txt* содержит время, пользователя и машину, где был создан коммит).

Название коммита - это число секунд с начала эпохи (Unix-время начинается 1 января 1970, 00:00:00 UTC), получаемое с помощью функции Python [time.time](https://docs.python.org/3/library/time.html#time.time). Это универсальное время, то есть названия коммитов будут упорядочены вне зависимости от часового пояса на различных машинах.

Также можно создать описание коммита с помощью опции *-m*:

    $ yarsync commit -m 'second commit'
    ...

Давайте добавим в репозиторий новый файл:

    $ touch example.txt
    $ yarsync status
    rsync -aun --delete -i --exclude=/.ys --exclude=/.ys/* --outbuf=L /home/me/tmp/ /home/me/tmp/.ys/commits/1650463725
    Changed since head commit:
    .d..t...... ./
    >f+++++++++ example.txt
    No syncronization information found.

Вывод программы даётся в формате опции *rsync -i* ([--itemize-changes](https://linux.die.net/man/1/rsync)). Первая строка обозначает, что корневая директория ('d') не изменилась ('.'), а точнее изменилась только её временная метка ('t'). На следующей строке мы видим, что со времени последнего ("головного") коммита (более по-русски будет сказать "снимка") появился наш новый файл. Как и ранее, директория *.ys* не принимается во внимание (*--exclude*), и никаких изменений при запросе статуса не происходит (*-n, --dry-run*).

Также в директории *.ys* можно создать файл *rsync-filter* с синтаксисом фильтров *rsync* (он очень богатый, смотрите его руководство). Пример его содержания (комментарии разрешены):

    # data can be copied separately
    - /data

В данном случае мы исключаем папку tmp/data из репозитория и игнорируем или синхронизируем её отдельно. Выделение отдельных подрепозиториев удобно в организации работы, но на носителях резервных копий удобнее линейная структура, чтобы можно было не искать вложения при синхронизации (хотя это можно решить, когда мы будем обсуждать работу с несколькими репозиториями одновременно).

Существующие коммиты можно посмотреть командой

    $ yarsync log

Полный список команд можно получить с помощью *yarsync --help*. Кроме того, директория *.ys* может находиться вне синхронизируемого каталога (с помощью опций *--config-dir* и *--root-dir*). [Моя первая публикация на Хабре](https://habr.com/ru/post/425259/) была о статических страницах сайта, которые поддерживали контроль версий с помощью чистого (bare) git-репозитория в отдельной папке.

Содержимое коммитов - это файлы и папки корневого репозитория (на момент их создания). Их можно просматривать с помощью обычного менеджера файлов или вызывать в них из терминала стандартные команды вроде *find*. Если вы удалили файл в рабочей директории, но потом решили его восстановить, то можете скопировать его (создать жёсткую ссылку) из коммита, где он был. Если же, напротив, вам не нужны старые файлы, то вы можете свободно удалить старые коммиты *rm -rf .ys/commits/<commit-number>*, при этом ни рабочая директория, ни инфраструктура *yarsync* не пострадают.

Синхронизация
-------------

Информация о репозиториях находится в файле *.ys/config.ini*. Создадим простую конфигурацию для копии наших данных в папке *~/tmp2*:

    [tmp2]
    # empty host means local host
    host =
    path = /home/me/tmp2

Если мы попробуем скопировать репозиторий туда с помощью *yarsync push tmp2*, то получим ошибку. Программа проверяет, что назначение (destination) действительно является корректным репозиторием (что не так, поскольку мы его ещё не создали). Также перед отправкой данных необходимо сохранить (commit) локальные изменения. Если мы уверены, что папка *~/tmp2* пуста или не существует, то мы можем клонировать туда наш репозиторий с помощью ключа *-f, --force*:

    $ yarsync push -f tmp2
    # rsync -avHP --delete-after --include=/.ys/commits --include=/.ys/logs --exclude=/.ys/* /home/me/tmp/ /home/me/tmp2/

При переходе в ту папку, мы увидим, что она идентична нашему первому репозиторию, как и коммиты и их история (проверьте с помощью *yarsync log*). Хотя коммиты и логи копируются полностью, конфигурационные файлы (*config.ini, rsync-filter* и другие в папке *.ys*) не копируются, то есть независимы друг от друга.

Ключ *rsync -H* означает связывание жёстких ссылок в *назначении* (в нашем случае *tmp2*) таким же образом, как и в *источнике*. Если мы посмотрим индексные дескрипторы (inodes) файлов *ls -i example.txt* в *tmp* и *tmp2*, то мы увидим, что они отличаются - при этом внутри одного клона они совпадают в коммитах и рабочей директории.

Ключ *--delete-after* требует, чтобы перед реальными изменениями *rsync* просканировал все файлы, то есть собрал все существующие жёсткие ссылки. Если между двумя репозиториями есть синхронизированный коммит, и в одном из них файл в последующем коммите был перемещён, то *rsync* увидит совпадающий дескриптор и не будет вновь пересылать существующий файл.

Если мы в процессе работы создали новый коммит в *tmp2*, то мы можем также перенести изменения обратно в *tmp*:

    $ cd ~/tmp
    $ yarsync pull tmp2

Разумеется, в конфигурационном файле в нескольких секциях могут быть настройки для большего числа репозиториев (*tmp3* и пр.). Полный синтаксис файла указан в модуле [configparser](https://docs.python.org/3/library/configparser.html#supported-ini-file-structure) стандартной библиотеки.

Часто бывает, что путь к репозиторию меняется. Например, если мы копируем данные по сети, то DHCP может выдать новый ip-адрес компьютера, а при подключении жёсткого диска на лету может быть сгенерирован уникальный путь в */run/media*. В таком случае можно использовать в конфигурации переменную окружения:

    [my_drive]
    path = $MYDRIVE/programming

и если мы зададим переменную *MYDRIVE*, то путь будет определён корректно:

    $ export MYDRIVE=/run/media/my_drive
    $ yarsync push my_drive

Кроме того, при синхронизации с другим репозиторием об этом сохраняется информация в *.ys/sync.txt*. В нашем случае в этом файле будет

    1650468609,tmp2

то есть номер коммита и название другого репозитория. Также информация о синхронизации будет отображаться в командах *status* и *log*:

    $ yarsync log
    commit 1650468609 <-> tmp2
    When: Wed, 20 Apr 2022 18:30:09 MSK
    ...
    
Слияние версий
--------------
--------------

Когда у нас есть несколько реплик данных и мы регулярно переносим изменения из одной в другую (либо если одной из них мы пользуемся только для доступа к файлам, а все изменения производим в другой), то мы можем довольно долго так работать без каких-либо сложностей. Однако в какой-то момент может возникнуть ситуация, что наши истории коммитов разошлись (мы добавили новые файлы и в одну, и в другую реплику), и нам необходимо установить, какое состояние рабочей директории должно считаться корректным для всех репозиториев. В этом случае мы должны провести слияние версий (merge).

Допустим, наши репозитории в *tmp* и *tmp2* синхронизированы. Создадим новые коммиты в каждой из реплик:

    $ cd ~/tmp2
    $ touch B
    $ yarsync commit -m 'Add B'
    ...
    commit 1650480050 created

и аналогично добавим файл 'A' в *tmp*. Теперь, когда мы попытаемся отправить данные из *tmp* в *tmp2*, то программа зафиксирует различающиеся коммиты и выдаст ошибку:

    $ yarsync push tmp2
    Nothing to commit, working directory clean.
    # local repository is 1 commits ahead of tmp2
    # rsync -avHP --delete-after --include=/.ys/commits --include=/.ys/logs --exclude=/.ys/* /home/me/tmp/ /home/me/tmp2/
    rsync --list-only /home/me/tmp2/.ys/commits/
    ! 
    destination has commits missing on source: 1650480050, synchronize these commits first:
    1) pull missing commits with 'pull --new',
    2) push if these commits were successfully merged, or
    2') optionally checkout,
    3') manually update the working directory to the desired state, commit and push,
    2'') --force local state to remote (removing all commits and logs missing on the destination).

Как мы видим, предлагается несколько вариантов действий. Самое простое, если мы уверены, что в *tmp2* не актуальные данные - записать туда состояние репозитория *tmp*, удалив все новые файлы с помощью опции *push -f*. Команда *push* проверяет, что в источнике все изменения были сохранены в коммит. В общем случае это невозможно сделать в удалённом репозитории (*rsync* не может копировать данные между двумя удалёнными машинами), поэтому изменения на другой машине могут быть не сохранены в её локальный коммит, и поэтому у команды *pull* опция *-f* отсутствует. Мы требуем, чтобы синхронизировались только сохранённые состояния - за исключением, о котором ниже.

У команды *pull* есть опция *--new* (которой нет у *push*), которая переносит только новые файлы с удалённого репозитория (не уничтожая локальные файлы, которые там отсутствуют):

    $ yarsync pull --new tmp2
    ...
    rsync --list-only /home/me/tmp2/.ys/commits/
    # rsync -avHP --include=/.ys/commits --include=/.ys/logs --exclude=/.ys/* /home/me/tmp2/ /home/me/tmp/
    merge 1650480038 and 1650480050 manually and commit (most recent common commit is 1650468609)

Как мы видим, в команде *rsync* здесь отсутствует флаг *delete*. Программа изучает коммиты в удалённом источнике, находит последний общий коммит (если он есть) и указывает последние коммиты в локальном и удалённом репозиториях, которые нужно синхронизировать.

В данный момент нам могут помочь несколько других команд:

    $ yarsync diff 1650480038 1650468609
    ...
    >f+++++++++ A

показывает, что чтобы перейти от общего коммита 1650468609 к 38-му (надеюсь, сокращение понятно), нужно добавить файл А. Так же мы можем посмотреть, что изменилось на другом репозитории с общего коммита (поскольку последний удалённый коммит уже скопирован локально). В данном случае это тривиально, но если вы в последний раз синхронизировали другую машину год назад, то эта информация будет очень полезна. Кроме того, поскольку наши коммиты хранятся в файловой системе, мы можем просто сравнить их с помощью *diff -r* (хотя придётся писать к ним пути), поэтому эта команда скорее для удобства.

В данный момент в локальном репозитории находится объединение рабочих папок обоих реплик:

    $ yarsync status
    ...
    Changed since head commit:
    >f+++++++++ A
    Merging 1650480038 and 1650480050 (most recent common commit 1650468609).
    # local repository is 2 commits ahead of tmp2
    $ ls
    A  B  example.txt

новым файлом считается *A*, поскольку последний коммит (головной) был сделан в *tmp2* (при этом в рабочей директории находятся оба файла).

Информация об объединении находится в файле *.ys/MERGE.txt*, который создаётся автоматически. Если мы сейчас сделаем *commit*, то этот файл будет удалён, а информация о слиянии добавится в log.

Но представим ситуацию, когда мы действительно пять минут назад создали новый небольшой коммит в *tmp2*, однако до этого очень долго работали в *tmp*, удаляли и переименовывали многие файлы в рабочей директории, и теперь вместе с состоянием *tmp2* мы вернули все эти файлы обратно (вместе с уже переименованными). В таком случае мы можем восстановить более актуальный коммит с помощью команды *checkout*:

    $ yarsync checkout 1650480038
    rsync -au --delete -i --exclude=/.ys --exclude=/.ys/* --outbuf=L /home/me/tmp/.ys/commits/1650480038/ /home/me/tmp
    *deleting   B
    .d..t...... ./

Когда мы выполняем *checkout*, то головным (head) коммитом становится не самый последний, а тот, который мы загрузили. В частности, если мы ничего не меняли, то команда *status* будет показывать разницу с загруженным коммитом (а не последним), с добавлением строки

    Detached HEAD (see 'yarsync log' for more recent commits)

Информация о головном коммите (если он не самый последний) сохраняется в *.ys/HEAD.txt*.

Если мы решим, что файл *B* нам больше не нужен, то мы можем прямо сейчас сделать коммит и отправить итоговую версию в *tmp2*:

    $ yarsync commit -m 'Merge.'
    $ yarsync push tmp2

Во время коммита и MERGE.txt, и HEAD.txt будут автоматически удалены, и новый коммит будет считаться корректным состоянием репозитория. Поскольку все коммиты с *tmp2* уже были скопированы локально, то сложностей с *push* уже не возникнет.

Поскольку старые коммиты могут произвольно удаляться, то может возникнуть ситуация, что в другом репозитории может сохраниться старый коммит, но при этом дальнейшая история будет совпадать с локальной копией (и последний коммит там будет среди локальных). В таком случае можно будет либо удалить тот старый коммит, либо перенести все коммиты *pull --new*, и в этом случае локальный репозиторий автоматически загрузит корректный (самый последний локальный) коммит. Возможно, что с развитием программы появятся новые эвристики, но в общем случае слияние состояний может проводиться только вручную - по описанному выше алгоритму.

Реализация
----------

Написание исполняемой программы на Питоне не похоже на создание обычного модуля, а работа с командами не похожа на создание объектов с состояниями.

Как я указал выше, есть отдельный питоновский модуль *yarsync.py*. Поскольку не хотелось бы, чтобы пользователь был вынужден набирать лишние три символа в конце команды, то потребовалось создавать отдельный исполняемый файл *yarsync* (вызывающий первый). При этом питоновский модуль также нужен: его очень удобно тестировать с помощью *pytest*.

В одной из ранних версий я пытался зафиксировать опции *rsync* в отдельном объекте, но в итоге у меня остался только класс *YARsync*. Большинство его методов приватные. Более того, в отличие от привычных объектов, большинство его методов могут быть недоступны: если мы вызываем *yarsync status*, то происходит инициализация с данными аргументами командной строки, и метод *_pull_push* (они объединены, поскольку отличаются для *rsync* только порядком последних аргументов) мы вызвать просто не сможем, потому что неизвестен удалённый репозиторий. Огромную работу с всевозможными аргументами командной строки делает стандартный модуль *argparse*, а *rsync* вызывается с помощью *subprocess*.

Безопасность
------------

Обычно парсинг конфигурационных файлов (тем более с заменой переменных окружения) может быть небезопасным. Если директория *.ys* отсутствует в текущем каталоге, то она ищется в его родительских каталогах (как в git). Я вызываю *yarsync* в проверенных директориях, однако в *configparser* ничего не говорится о том, чтобы его использование было небезопасным, поэтому не могу быть уверен, есть ли здесь уязвимость или нет. Возможно, читатели подскажут на этот счёт.

Также к безопасности я отношу возможность удалить личные данные из репозитория (напомню, что у нас очень много коммитов, то есть недостаточно удалить файл из рабочей директории). Жёсткие ссылки здесь скорее в плюс, поскольку мы можем просто вызвать *shred* для нашего файла, и все его дубликаты будут одновременно стёрты. Затем мы можем удалить файлы с одним путём из всех коммитов, а если сомневаемся, не был ли он в какой-то момент перемещён, то можем найти его по иноду *find -inum*. Поскольку удалённые коммиты всё равно будут содержать этот файл, то нужно будет также стереть его там с помощью *push -f*.

Если вы синхронизируете личные файлы, то может быть важным их шифрование. Я пользуюсь стандартными зашифрованными разделами [LUKS](https://ru.wikipedia.org/wiki/LUKS), которые после открытия прозрачны для любой синхронизации. Также можно шифровать отдельные файлы с помощью [EncFS](https://github.com/vgough/encfs), основанной на FUSE, и она поддерживает жёсткие ссылки (кроме режима *paranoia*), то есть в принципе может использоваться с *yarsync*.

Главным аспектом безопасности я считаю сохранность данных и всегда вызываю *--dry-run* перед настоящими *push* и *pull*.

    $ yarsync push -n dest

покажет, что именно будет перенесено на *dest*, не делая физических изменений. Если существующий файл был изменён (в результате ошибки или сбоя файловой системы), то это тоже скорее всего будет отражено. Для более надёжной проверки у *rsync* есть опция *checksum* (гораздо более длительная, и мне она пока не потребовалась).

Альтернативы
------------

Синхронизация данных, видимо, является важной задачей для программистов и системных администраторов, потому что только перечисление всех известных инструментов потребовало бы отдельной статьи. Однако дать небольшой обзор альтернатив я считаю уместным (здесь [чуть более полный список](https://github.com/ynikitenko/yarsync#alternatives) инструментов, на которые я обратил внимание), в том числе чтобы показать их различия с *yarsync*.

Прежде всего, для синхронизации ценных изменяемых текстовых файлов и программ используются системы контроля версий. Я многие годы пользуюсь *git*, к которому у меня нет ни малейших претензий. Системы контроля версий предлагают значительно больше, чем просто синхронизацию, но положа руку на сердце, почти всегда я набираю *git push* в первую очередь для того, чтобы моя последняя работа не пропала. В свою очередь, если я скачал статью из интернета, то мне удобно, что она у меня сохранена, но её ценность для меня не критична и её версии мне не нужны (*yarsync* их не поддерживает).

В отличие от системы контроля версий с общепризнанным лидером, синхронизация обычных файлов предлагает значительно больше разных инструментов.

К инструментам **непрерывной синхронизации** относятся Dropbox, Яндекс.Диск и многие другие облачные сервисы. Ранее я ими пользовался, но лично мне не очень нравится, что какой-то сервис постоянно занимает память и процессор. Такие программы, если и доступны под Linux, могут быть с закрытым кодом, что тоже минус (хотя и побудили меня лучше изучить изоляцию процессов и SELinux). Одним из главных минусов для меня явилось то, что бесплатный объём памяти в них гораздо меньше, чем возможный объём жёсткого диска, который я могу купить. Платный гугл-диск был мне удобен (хотя я уже не синхронизировал его с компьютером), но, по иzвестным причинам, в последнее время я уже физически не мог за него заплатить с российской карты. Кроме того, поскольку я не постоянно нахожусь в сети, то у меня не было уверенности, что при подключении синхронизация произойдёт корректно и файлы не будут утеряны. Понятными плюсами облачных сервисов является то, что не обязательно иметь с собой носитель информации (или поддерживать свой сервер), а также то, что синхронизация может происходить с разными устройствами (например, планшетом на Android). Из интересного отмечу, что, например, Dropbox [использует алгоритм rsync](https://ru.wikipedia.org/wiki/Rsync) через библиотеку *librsync*.

Есть также много инструментов непрерывной синхронизации с открытым кодом и позволяющих использовать свой сервер, которые лишены части из вышеуказанных недостатков (но лично для меня внешний жёсткий диск всё равно гораздо дешевле оплаты места на сервере).

Существует множество программ для **бэкапа** и **архивирования**. Сама тема [резервного копирования](https://ru.wikipedia.org/wiki/Резервное_копирование) очень широка. Помимо сохранения, в ней также важен аспект *восстановления* данных из бэкапа. К сожалению, при изучении таких программ я периодически видел посты (issues) о том, как архив был повреждён, и в этом смысле прозрачные коммиты с жёсткими ссылками не требуют никакого восстановления (если *yarsync* недоступна, то его можно сделать вручную). Разумеется, это не значит, что такие программы всегда хуже и не будут подходить для вашего случая.

Также я длительное время пользовался программой [git-annex](https://git-annex.branchable.com/). Это огромная сложная программа на Haskell, использующая *git*, со множеством возможностей, про которую автор пишет, что она не является ни бэкапом, ни архивированием (но *git-annex assistant* позволяет синхронизацию файлов между компьютерами на OSX и Linux). К сожалению, мне не удалось хорошо в ней разобраться, и в какой-то момент одна из копий моих данных оказалась в непригодном состоянии (но автор программы оперативно помог на её форуме). Постепенно разбираясь в *git-annex*, я обнаружил, что он не сохраняет временные метки файлов, что для меня было неприемлемо, поскольку информация о том, создал я файл год назад или 10 лет назад, для меня важна. После этого я перешёл к классическому *rsync* и созданию удобной конфигурации для него.

Итоговые замечания
------------------

Для одновременной синхронизации нескольких репозиториев очень удобна программа [myrepos](https://myrepos.branchable.com/) (от создателя *git-annex*). Например, если вы хотите отправить новые коммиты в нескольких репозиториях на удалённую машину, то можете это сделать одной командой *mr push <remote>*. Она работает с *git*, но поскольку интерфейс *yarsync* очень близок к нему, то конфигурацию *.mrconfig* очень легко перенастроить.

Если представить, что *yarsync* предстоит ещё долгий путь, то программа находится ближе к его началу. На данный момент она используется только одним человеком, и хотя я публикую её в открытом доступе, мне известно множество её недостатков: вывод осуществляется простым текстом, без цветов и выделения, описание коммита можно передать только через опцию *-m* (текстовый редактор не вызывается), сам вывод явно будет улучшен, а самое страшное, что я до сих пор не понял, должны ли команды rsync, когда они есть, печататься с начала строки или после символов "# ". Для полного использования функционала нужны жёсткие ссылки, но возможно, что иногда это требование можно ослабить. Известно, что хотя *rsync* относится в первую очередь к Linux и близким системам, но он может использоваться и в Windows, что я также не пробовал, поскольку не пользуюсь этой ОС.

Несмотря на обозначенные недостатки, лично для меня оказалась удобна и понятна работа *yarsync*. Главные свои задачи: *commit, push* и *pull* она выполняет надёжно. При этом я не могу сказать, что ей доверяю, потому что всегда сначала запускаю *status* и пробую синхронизацию с ключом *-n*. В общем же случае я не доверяю ни одной программе, и единственным (достаточно) надёжным способом для меня является иметь не меньше трёх копий данных (это даже формализовано в виде [правила 3-2-1](https://habr.com/ru/company/veeam/blog/188544/)). Копирование данных на несколько машин / носителей я использую очень давно, однако если их изменения возможны в нескольких репозиториях, то без коммитов это превращается в хаос (либо запрещается обновление некоторых копий). Сейчас почти все данные, которыми я дорожу (будь то музыка, фотографии, книги, статьи), я добавил в репозитории *yarsync*. Я думаю, что *yarsync* близка к философии Unix, потому что использует простые существующие инструменты (*rsync* и файловую систему). Если сообщество разделяет предложенные идеи, то программа быстро преодолеет имеющиеся недостатки.

Данная статья написана к конкурсу Хабра [Технотекст 2021](https://contenting.io/2021.html). Девиз конкурса в этом году - слова Станислава Лема «ничто не стареет так быстро, как будущее». Я думаю, что *rsync* подходит под этот девиз, потому что несмотря на появление множества программ с той же целью, они рождаются, стареют и исчезают, а *rsync* так и продолжает существовать и использоваться вот уже больше 25 лет, потому что прошлое стареет гораздо медленнее, чем будущее.