Удаление дубликатов документов из поиска в Elasticsearch
У меня есть индекс с большим количеством бумаги с тем же значением для того же поля. У меня есть одна дедупликация в этом поле.
Агрегаторы придут ко мне как счетчики. Мне нужен список документов.
Мой индекс:
- Максимальное ограничение на количество значений, которые я могу указать в фильтре идентификаторов или в общем случае запроса?
- Поиск имени файла с помощью ElasticSearch
- Как проиндексировать PDF-файл в Elasticsearch 5.0.0 с помощью плагина ingest-attachment?
- ES продолжает возвращать каждый документ
- elasticsearch bool query объединяется с OR
- Doc 1 {domain: ‘domain1.fr’, name: ‘name1’, date: ’01 -01-2014 ‘}
- Doc 2 {domain: ‘domain1.fr’, name: ‘name1’, date: ’01 -02-2014 ‘}
- Doc 3 {domain: ‘domain2.fr’, name: ‘name2’, date: ’01 -03-2014 ‘}
- Doc 4 {domain: ‘domain2.fr’, name: ‘name2’, date: ’01 -04-2014 ‘}
- Doc 5 {domain: ‘domain3.fr’, name: ‘name3’, date: ’01 -05-2014 ‘}
- Doc 6 {домен: ‘domain3.fr’, имя: ‘name3’, дата: ’01 -06-2014 ‘}
Я хочу этот результат (результат дедупликации по полю домена):
- Doc 6 {домен: ‘domain3.fr’, имя: ‘name3’, дата: ’01 -06-2014 ‘}
- Doc 4 {domain: ‘domain2.fr’, name: ‘name2’, date: ’01 -04-2014 ‘}
- Doc 2 {domain: ‘domain1.fr’, name: ‘name1’, date: ’01 -02-2014 ‘}
- Случайный порядок и разбивка на страницы Elicsearch
- FIELDDATA Данные слишком велики
- elasticsearch - что делать с неназначенными осколками
- Как получить уникальный счетчик поля с помощью Kibana + Elastic Search
- Запрос Elasticsearch для возврата всех записей
- no зарегистрирован для
- Кодировка UTF8 длиннее максимальной длины 32766
- Найти документы с пустой строковой стоимостью на elasticsearch