удаление "двойников"

Аватар пользователя Антонина82
Forums: 

Когда я объединяю писателя, часто возникает ситуация, что одно и то же произведение, но в разное время залитое (один формат fb2), появляется в списке. Программа предлагает мне удалить худший экземпляр. Но поскольку я не обладаю багажом знаний в создании электронных книг, то по короткому вопроснику не могу судить, какой вариант лучше. Для начала список
Бойлен Клер «Эмма Браун»
Наменский Артём «Недра»
Норвилл Мэннинг - "Шаар - скиталец будущего"
Олдисс Брайан Уилсон - "Беспосадочный полет"
"Долгие сумерки Земли"

Янссон Туве - "Волшебная зима"
"Маленькие тролли или большое наводнение"

Брумель Валерий - "Не измени себе"

Наличие в библиотеке двух ОДИНАКОВЫХ книг ни к чему.Наверное, будет лучше, указывать в этой теме о наличии "двойников", а продвинутые пользователи библиотеки будут решать какой экземпляр оставить.

ProstoTac написал:
Все, что Вы перечислили в данном конкретном случае - "http://lib.rus.ec/b/571378 http://lib.rus.ec/b/667473 название слегка разное и отличие в заголовок..." к делу не относится.
И вообще - Вы о дублях или о том, какие "поделки" делает литрес?

Литрес скурвился, гонит мусорные файлы.
Цитата:
"версия Литреса оказывается урезанной по сравнению с бумажной" - берите бумажную и исправляйте.

Штрих, печатная машинка, ножницы, клей...
Цитата:
"Меньше иллюстраций или берется невычитаный вариант" - берите бумажную и исправляйте.

Встречал в истории, несмотря на "текст предоставленный..." уже были исправления ошибок в издательском тексте.
Цитата:
"Больше отличий нету" - ищите поглубже - я Вам не раз указывал на наличие отличий.

По поводу Литреса: Из новинок книга http://lib.rus.ec/b/667654 и http://lib.rus.ec/b/652972.
Отличий в тексте нет, причем более старая имеет версию больше чем литресовская. Да и такая же гигантская обложка.
Дубль? Дубль.

Обе книги литресовские. Оставил более правильную.

По поводу советских изданий хорошо написал когда-то М. Веллер ("Кухня и кулуары"):
"Госкомиздат – гениальная контора, достойно координирующая наш бред в области книгоиздательства. Особенно радостно это выглядит на параллельных изданиях:
В течение нескольких лет десять разных издательств издают «Трех мушкетеров», скажем. Десять редакторов редактируют, десять художников художничают, десять корректоров вычитывают, десять наборщиков набирают и т.д. Почему не отдать всё одному издательству и одной типографии? Потому что тогда тираж съест всю бумагу и всю мощность этой типографии, и издательство придется закрыть. И слава Богу, закрыть! другие книги будут издавать другие издательства. А планы? штаты? зарплаты? Десятикратно будем повторять мартышкин труд и жаловаться на нехватку всего."

http://lib.rus.ec/b/666292 http://lib.rus.ec/b/667644 http://lib.rus.ec/b/667656 СИ http://lib.rus.ec/s/69241 Литрес http://lib.rus.ec/b/169114 http://lib.rus.ec/b/214418 http://lib.rus.ec/b/211576 http://lib.rus.ec/b/607223 http://lib.rus.ec/b/214303 http://lib.rus.ec/b/208883 http://lib.rus.ec/b/121614 http://lib.rus.ec/b/146406 и там и там ошибки OCR и разбивки текста на строки. Обложка одна английская другая сборника на русском. Надо собирать из двух один.

http://lib.rus.ec/b/590429 http://lib.rus.ec/b/590429
http://lib.rus.ec/b/603945 трилогия в одном файле, но перепутан порядок и потеряны иллюстрации и http://lib.rus.ec/s/31141 трилогия по книгам

http://lib.rus.ec/a/259692 и http://lib.rus.ec/a/228934 автор и его псевдоним
http://lib.rus.ec/b/158637 http://lib.rus.ec/b/386640
Вроде http://lib.rus.ec/b/507298 http://lib.rus.ec/b/201140
http://lib.rus.ec/b/580890 и части http://lib.rus.ec/s/37541
http://lib.rus.ec/b/207808 http://lib.rus.ec/b/628697 знак качества не дает
http://lib.rus.ec/b/184044 http://lib.rus.ec/b/457076 надо править опечатки в обоих

http://lib.rus.ec/s/59009
Три части и две первых поотдельности.

http://lib.rus.ec/b/671820 http://lib.rus.ec/b/382040 разница в размерах в три раза.
http://lib.rus.ec/b/458330 вычитанней чем http://lib.rus.ec/b/645408 (литрес)

В обоих случаях "литрес" vs СИ. И чё? По традиции либрусека такое - не дубль.

Через плечо...
Если есть отличия...
http://lib.rus.ec/b/668106 http://lib.rus.ec/b/671978 разные версии, объединить не получается.
http://lib.rus.ec/b/463325 СИ с кучей очепяток типа "нырнул с темноту" и http://lib.rus.ec/b/482056 Литрес (поработал корректор)
Тройняшки http://lib.rus.ec/b/671974 http://lib.rus.ec/b/670099 http://lib.rus.ec/b/661261
http://fb11.online/b/672289 http://fb11.online/b/672288
http://fb11.online/b/100494 http://fb11.online/b/387942 различие в написании названия, в тексте ошибки OCR (?) born-bom Only the wind blowing softly.-Onlv the wind blowing softlv. tax-mad, - and tax?mad. Английский не знаю, правильный вариант не укажу. По оформлению лучше старый.
http://fb11.online/b/672409 http://fb11.online/b/609037
http://fb11.online/b/174832 http://fb11.online/b/672523
http://fb11.online/b/673428 http://fb11.online/b/673427 заливальщик не объединил версии

Lyka написал:
http://fb11.online/b/673428 http://fb11.online/b/673427 заливальщик не объединил версии

В том числе, и по этому поводу - у меня как раз вопрос возник.
Вспоминаю старые времена - самый расцвет Либрусека - тогда, припоминаю, довольно тщательно следили за заливкой книг. За повторную заливку дубля или "слегка поправленного" файла сразу бы надавали по шапке, вплоть до присвоения статуса "Вандала", со всеми вытекающими последствиями. Помнится, возникали даже "микро-войнушки" по поводу правомерности перезаливки книг, были даже придуманы некие эмпирические правила - что-то вроде: не менее 10 (или 20) исправлений орфографических или др. ошибок, чтобы считать перезаливку "законной"...
Сейчас же, похоже, все в прошлом.
Сначала появился мистер Компилятор, который с упорством, достойным лучшего применения, сливал несколько (или все) произведения автора в один большой файл, добавляя в название слово "Компиляция". Цель данного действа (для меня, во всяком случае), остается загадкой. (К счастью, на Л. он меньше появлялся, но на Ф. повеселился вовсю, а может и по сей день веселится). И судя по кол-ву созданных компиляций, никто ему ничего не предъявлял...
Теперь же появился мистер Оптимизатор, который взвалил на себя "великую миссию" по оптимизации обложек, опять же - непонятно, с какой целью. Я так понимаю, его оптимизация заключается в уменьшении размера картинки обложки. Причем "ужимает" картинку до совсем уж смешных в наше время килобайт 40-50. Во времена, когда даже ОЗУ измеряется в гигабайтах, не говоря уж о дисковом пространстве, а через годик-другой в памяти смартфонов уже будет появлятся слово "терабайт", цель данного действа также остается загадкой. При этом гордо добавляет себя в список авторов fb2_файла. И судя по частоте появления комментария "[litres с оптимизированной обложкой]", останавливаться данный товарищ не собирается. И видимо, никто никаких претензий ему не предъявляет.
Вот вам и дубли.

NickNem написал:
[litres с оптимизированной обложкой]

Глупость полная.

tvnic написал:
NickNem написал:
[litres с оптимизированной обложкой]

Глупость полная.

Надпись - да, прописать в Хистори и заменить.
По поводу размера обложек - сейчас размеры обложек избыточные, например, зачем 1500x2316 (встречаются и поболее)? Распечатывать?

http://fb11.online/b/673704 http://fb11.online/b/673550 - источник один, поиздевались двое.

Дак а чё Вы сами не справились - там же явно видно лучший экземпляр?

http://lib.rus.ec/b/143525 файл 2009 года http://lib.rus.ec/b/673917 файл 2014 года размером в три раза больше.
http://lib.rus.ec/b/413845 http://lib.rus.ec/b/673919
Разные источники и разности в файлах - разбивка на абзацы и очепятки.
http://lib.rus.ec/b/628132 (с несколькими ошибками OCR) Литрес и http://lib.rus.ec/b/673923

В чем ценность для библиотеки в поделках, не соответствующих книгам.
Проверил начало серии "В одном томе":

Цитата:
1. Меч Без Имени [трилогия; компиляция] 3M, 768 с. (3829) (оформ. Воронин) (читать) (скачать) - Белянин
2. Солдат чужой войны [Конвой + Схватка без правил + Возвращение не предусмотрено + Ультиматум] 4M, 1127 с. (3411) (оформ. Бабкин) (читать) (скачать) - Орлов
4. Империя [Виват император! + Армагеддон] 2M, 551 с. (4390) (оформ. Воронин) (читать) (скачать) - Злотников
5. Тайный сыск царя Гороха [пенталогия; компиляция] 3M, 854 с. (6269) (оформ. Воронин) (читать) (скачать) - Белянин
6. Слимпериада [трилогия] 3M, 727 с. (1395) (оформ. Воронин) (читать) (скачать) - Бабкин
7. Я, маг! [Авторский сборник] 3M, 875 с. (читать) (скачать) - Казаков
12. Сборник "Профессия: ведьма" [ФЕЙК] 5M, 1217 с. (читать) (скачать) - Громыко
16. Магистр [трилогия] [компиляция] 3M, 836 с. (читать) (скачать) - Степанов

Одни компиляции, причем не полных книг.
да и в Литресовских книгах отсутствуют иллюстрации.
Сравните http://lib.rus.ec/b/657569 и https://fantlab.ru/edition176648.pdf

1. Ценность - для пользователя. Скачать одним куском в читалку.
Ценность - "Наша цель - больше книг".
Пусть лучше такая "Ледяной Король, или Игры не по правилам", http://lib.rus.ec/b/657569, чем никакой, другой все равно нет.
2. Да, все представленные Вами книги - ядреная сундучатина. Ну так это не единственные, не первые и не последние примеры сундучатины на либрусеке. Да, книги литрес не отличается качеством и соответствием стандартам ФБ2, это ни для кого не секрет. Ну так и подлежат замене с случае лучшего варианта ФБ2. И хорошим тоном бы было подписывать автору ФБ2 "файл соответствует бумажной книге". Да, во многих ФБ2-файлах не хватает кусков текста из бумажных книг, по разным причинам упущенных верстальщиком. Та-же "Меч Без Имени". Есть отдельная ветка форума для обсуждения подобного.

Ну так что же делать? Мир несовершенен... Чем больше книг на либрусеке, тем больше работы.

ИМХО может быть стоит делать для неполных сборников так: http://lib.rus.ec/b/91804?

Может для неполных сборников делать так: http://lib.rus.ec/b/91804, только убрать вторую серию из серий. Вот появится полный сборник, тогда прописывать в серию можно.

http://fb12.online/b/328004 http://fb12.online/b/248244
http://fb12.online/b/234254 http://fb12.online/b/282991
http://fb12.online/s/12242 и отдельные у автора http://fb12.online/a/889

http://lib.rus.ec/b/355481 http://lib.rus.ec/b/671174 разные версии
http://lib.rus.ec/b/390071 http://lib.rus.ec/b/679762 отличия от первой - кавычки-елочки, три точки - троеточие, большая другая обложка, картинка - печать автора файла, посвящение либрусеку, посвящение флибусте, картинка с жанром.

Самиздат и официальный бумиздат. Не дубли по существующей идеологии либрусека.

ProstoTac написал:
Самиздат и официальный бумиздат. Не дубли по существующей идеологии либрусека.

http://fb12.online/b/674017 или СИ, но тогда нафиг печатные данные и обложку. Или печатная, но тогда зачем указание на СИ.
Три штуки есть. Из двух вариантов.
СИ - авторам стоит повторить русский язык. Вы, Вас - с большой буквы пишутся только как вежливое обращение к одному лицу в официальных отношениях или в личных письмах.
http://fb12.online/b/671567/ СИ авторский вариант?
Цитата:
— С Вашего. разрешения, господин сержант, я хотел бы попробовать, только, без оружия, — по. Уставу обратился один из солдат — высокий, жилистый, пластичный, с крепкими кулаками.
— Сейчас работа только. с оружием. Завтра посмотрю, чего, ты стоишь.
А вечером. гарнизон крепости наслаждался изысканным зрелищем — фехтовальным поединком. коменданта инового. се'ржанта.
Противники испробовали разное оружие и разошлись довольные' друк другом. К радостисолдат. де Баон победил, но. отнюдь не с разгромным счетом, так что. авторитет Жана, как мастера клинка, с тех пор сомнению не подвергался

"Три штуки есть. Из двух вариантов." - во Вы из них и ищите дубли, а не из серия-серия (http://lib.rus.ec/s/70614 http://lib.rus.ec/s/70271).
"http://fb12.online/b/674017 или СИ, но тогда нафиг печатные данные и обложку. Или печатная, но тогда зачем указание на СИ." - это все на совести верстальщика.

ProstoTac написал:
"Три штуки есть. Из двух вариантов." - во Вы из них и ищите дубли, а не из серия-серия (http://lib.rus.ec/s/70614 http://lib.rus.ec/s/70271).
Одна с пробелом, вторая с тире.

Переводчик Левин Михаил Борисович, похоже, встречается дважды: автор 38689 и 300240.

Один и тот же сборник Оруэлла:
http://lib.rus.ec/b/180035 - горбатый doc-файл с кучей опечаток ("Тайме" вместо "Таймс" и т.п.) (предлагается на удаление) и
http://lib.rus.ec/b/683612 - вычитанный по бумажной книге fb2, с иллюстрациями.

http://lib.rus.ec/b/172087 http://lib.rus.ec/b/614932
http://lib.rus.ec/b/1629 и http://lib.rus.ec/b/124863 - почти полный дубль. Источник скорее всего http://lib.rus.ec/b/688181. Но второй не соответствует - есть пару различных моментов. Надо сверять с бумагой.

http://lib.rus.ec/b/206307 http://lib.rus.ec/b/688984 со знаком качества - и не проверишь.

1. Скачиваете оба файла себе на комп - проверяете, сколько влезет.
2. Способ №2 - переводите оба файла в режим "чтение". Какой лучше - видно невооруженным взглядом.

Судя по id, один файл не является родительским для другого. Впрочем, ни один не соответствует исходнику СИ. В одном нет авторского предисловия, во втором - второй эпиграф оформлен простым текстом. И смущают "отдельные правки". Да и из-за знака качества не объединишь.

http://lib.rus.ec/b/150704 и http://lib.rus.ec/b/7506 - но разная разбивка на абзацы! Надо искать источник
http://lib.rus.ec/b/368721 http://lib.rus.ec/b/665261 - OCR и Литрес. Механически не сливать! Есть отличия в разбивке абзацев. И по-мелочи...
http://lib.rus.ec/b/495000 http://lib.rus.ec/b/495453 - OCR и smena-online.ru. Разность есть.
http://lib.rus.ec/b/57204 http://lib.rus.ec/b/534643 - надо сверяться с книгой. Разница в абзацах.

Просьба к библиотекарям - книги https://lib.rus.ec/b/206307 и https://lib.rus.ec/b/688984 объединить в пользу первой. Ибо со знаком качества - сам не могу.

Есть небольшая разница в редакциях текста. Предполагаю, первая - 2010 г, вторая - 2014.
Объединять не решился, т.к. не специалист, т.е. данного автора не читал. Мнение специалиста приветствуется.

Согласен, небольшая разница в редакциях текста. На странице книги у автора помечено "Размещен: 24/03/2009, изменен: 06/11/2014." То есть Вы правы, я не докопал. Вторая - с более поздней редактурой, 2014 года. Первая - редактура 2009 года.

Встретились два Солженицыных Александра Исаевича - авторы 20381 (правильный) и 226262 (пустой).

Аватар пользователя Isais

Ни один файл не лучше, несмотря на знак качества. И в одном и в другом допущены ошибки распознавания и пропущены знаки.
восстановить звенья л тинной цепи событий... расчетах была допущепа ошибка... Мимаса, Энцелада и Тефни... Сатурна, на которой! частицы кольца... на ко- хором среднее... «пищи для Пера» журналистам... средств, по п с привлечением... -- это из файла со знаком качества.
Короче, надо их сравнивать и объединять в третий файл, безошибочный. Я не возьмусь, сразу говорю.

Аватар пользователя Isais

Деточка, вы рехнулись -- считать дублями автора и серию книг про этого персонажа?
Или у вас такое вандальское понятие о порядке?

http://lib.rus.ec/s/5030 (слил в одну серию)
Техническую энциклопедию заливали два раза: в 2008 и 2010 году. Вариант 2010 с текстовым слоем.

http://lib.rus.ec/b/414949 http://lib.rus.ec/b/606375

Дурдом на сайте. Робот поработал?
Пообьединял файлы с одинаковыми названиями, но с разными переводчиками\иллюстраторами в одну кучу. Как пример
Двадцать тысяч лье под водой (fb2) Переводчик: Игнатий Петров
Замена для
Двадцать тысяч лье под водой 1459K fb2 (пер. Переводчик неизвестен) (Капитан Немо-1)
Двадцать тысяч лье под водой 7M fb2 (пер. Вовчок) (Капитан Немо-1)
Двадцать тысяч лье под водой 1467K fb2 (пер. Переводчик неизвестен) (Капитан Немо-1)
Двадцать тысяч лье под водой [английский и русский параллельные тексты] 2070K fb2

Похоже, что робот. Например, я объединил авторов https://lib.rus.ec/a/323027 (1 книга) и https://lib.rus.ec/a/6116 (много разных книг, может быть дубли, может нет). Но при этом зачем-то автоматом объединились книги внутри автора https://lib.rus.ec/a/6116, например следующие пары:

https://lib.rus.ec/b/681695 https://lib.rus.ec/b/237185
https://lib.rus.ec/b/694410 https://lib.rus.ec/b/86881
https://lib.rus.ec/b/681696 https://lib.rus.ec/b/237183
https://lib.rus.ec/b/409811 https://lib.rus.ec/b/87233
https://lib.rus.ec/b/616411 https://lib.rus.ec/b/393714
https://lib.rus.ec/b/66761 https://lib.rus.ec/b/28142
https://lib.rus.ec/b/643701 https://lib.rus.ec/b/614849

Я вовсе не хотел объединять эти пары даже если они являются дублями, а робот объединил и приписал мне. Впрочем, возможно, что какие-то из них уже были объединены друг с другом.

Поэтому прошу для начала разобраться, корректно ли объединение приведенных выше пар, ну а уже потом дальше выяснять, что и как может этот робот накосячить.

Накосячено хорошо. У вас это Конан Дойль, я встречал такую ситуацию у Верна и Анднрсона...

Страницы

X