Как отличить литературу от макулатуры
Oct. 11th, 2002 01:07 amДано: Текст Т, т.е. последовательность слов а1, а2, а3...
Очень большой корпус С текстов данного языка, не содержащий Т.
Алгоритм:
Ищем а1 в С, если нашли, ищем
"а1 а2" в С, если нашли, ищем
"а1 а2 а3" в С и т.д.
пока не найдем максимальную общую подстроку
"а1 а2 а3... ак", запоминаем "к".
Начинаем искать следующую максимальную подстроку
"а_к+1, а_к+2 ...", находим, запоминаем длину.
и т.д.
Вычисляем среднюю длину Д максимальной подстроки.
Если Д > 3 то T -- макулатура.
Проверено с Google в качестве корпуса С, на примере Набоковского текста и какой-то официальной телеги. Впечатляет.
Очень большой корпус С текстов данного языка, не содержащий Т.
Алгоритм:
Ищем а1 в С, если нашли, ищем
"а1 а2" в С, если нашли, ищем
"а1 а2 а3" в С и т.д.
пока не найдем максимальную общую подстроку
"а1 а2 а3... ак", запоминаем "к".
Начинаем искать следующую максимальную подстроку
"а_к+1, а_к+2 ...", находим, запоминаем длину.
и т.д.
Вычисляем среднюю длину Д максимальной подстроки.
Если Д > 3 то T -- макулатура.
Проверено с Google в качестве корпуса С, на примере Набоковского текста и какой-то официальной телеги. Впечатляет.
no subject
Date: 2002-10-10 04:18 pm (UTC)no subject
Date: 2002-10-10 06:04 pm (UTC)no subject
Date: 2002-10-10 07:29 pm (UTC)no subject
Date: 2002-10-11 01:28 am (UTC)