Скажем, у вас есть список, содержащий:

some movie
some movie 2
the some movie
the third movie
another movie
the normal movie

При обычной сортировке список будет выглядеть так:

another movie
some movie
some movie 2
the normal movie
the some movie
the third movie

Однако я видел некоторые приложения/веб-сайты, которые сортируют их следующим образом:

another movie 
the normal movie
some movie
the some movie
some movie 2
the third movie

В основном сортировка с игнорированием the и сортировка по фактическому имени, а не по "the". В некоторых местах, которые я вижу, это делается с a и an, когда они стоят первыми в заголовке.

Мой вопрос: какой из этих методов сортировки предпочесть? Должны ли они быть отсортированы по первой букве, несмотря ни на что, или следует учитывать, что такие вещи, как the [x], не имеют «настоящего» слова (нельзя сказать, что это объект, действие или описание объекта - он определяет, является ли это случайным или конкретным элементом). Так должны ли the, a и an игнорироваться при сортировке списков, когда это первое слово?

4
Cpt.Whale 17 Авг 2017 в 22:10
Название этого поста сбивает с толку.
 – 
Fernando
17 Авг 2017 в 23:59
Отредактируй тогда...
 – 
user87595
18 Авг 2017 в 13:18

3 ответа

Лучший ответ

Загляните в «Стоп-слова»:

Иногда из словаря полностью исключаются некоторые чрезвычайно распространенные слова, которые, казалось бы, не имеют большого значения при выборе документов, соответствующих потребностям пользователя. Эти слова называются стоп-словами.

(Я также видел определители или статьи).

Общая стратегия определения стоп-листа состоит в том, чтобы отсортировать термины по частоте набора (общее количество раз, когда каждый термин появляется в наборе документов), а затем выбрать наиболее часто встречающиеся термины, часто отфильтрованные вручную по их семантическому содержанию относительно домен индексируемых документов, как стоп-лист

Подробнее читайте здесь: https: //nlp.stanford.edu/IR-book/html/htmledition/dropping-common-terms-stop-words-1.html

3
Cpt.Whale 17 Авг 2017 в 23:07

Зависит от контекста.

Для имен собственных (например, названий фильмов, музыкальных исполнителей) лучше всего сортировать по наиболее узнаваемому слову в строке. Например, этот список:

Django Unchained
The Dark Knight
The Incredibles
Ex Machina
500 Days of Summer

Будет отсортировано так:

500 Days of Summer
The Dark Knight
Django Unchained
Ex Machina
The Incredibles

Где цифры и символы предшествуют буквенным символам. Это условность, потому что пользователи естественным образом тяготеют к значащей части предложения, например «Суперсемейка».

Неправильные существительные и технические данные сортируются в алфавитно-цифровом порядке.

2
Alan 17 Авг 2017 в 22:38

У вас может быть 2 записи для заголовка:

  • «короткое название» (без начального «The»), используемое в отсортированном списке
  • «длинное название», используемое на странице сведений о фильме.

У вас будет отсортированный список, который будет выглядеть так:

  • другой фильм
  • обычный фильм
  • какой-то фильм
  • какой-то фильм
  • какой-то фильм 2
  • третий фильм

В качестве альтернативы вы можете показать ведущую статью следующим образом:

  • другой фильм
  • обычный фильм
  • какой-то фильм
  • какой-то фильм
  • какой-то фильм 2
  • Третий фильм, The

На странице сведений у вас будет отображаться полное название.

Фильм 1

Описание The Some Movie...


Это распространенный образец в печатных энциклопедиях и словарях. Однако следует учитывать, что в некоторых названиях фильмов начальный артикль является основной частью самого названия, поэтому удалять его не следует.

1
Stefano 17 Авг 2017 в 22:50