snyders: (Default)
[personal profile] snyders
Дано: Текст Т, т.е. последовательность слов а1, а2, а3...
Очень большой корпус С текстов данного языка, не содержащий Т.

Алгоритм:

Ищем а1 в С, если нашли, ищем
"а1 а2" в С, если нашли, ищем
"а1 а2 а3" в С и т.д.
пока не найдем максимальную общую подстроку
"а1 а2 а3... ак", запоминаем "к".
Начинаем искать следующую максимальную подстроку
"а_к+1, а_к+2 ...", находим, запоминаем длину.
и т.д.

Вычисляем среднюю длину Д максимальной подстроки.
Если Д > 3 то T -- макулатура.

Проверено с Google в качестве корпуса С, на примере Набоковского текста и какой-то официальной телеги. Впечатляет.

Date: 2002-10-10 04:18 pm (UTC)
From: [identity profile] cmm.livejournal.com
хм.   надо приспособить данную методу для распознавания спама. :)

Date: 2002-10-10 06:04 pm (UTC)
From: [identity profile] snyders.livejournal.com
Нет, это слишком радикально. Большая часть деловой переписки отфильтруется.

Date: 2002-10-10 07:29 pm (UTC)
From: [identity profile] dmierkin.livejournal.com
любопытно. у вас скрипт остался ?

Date: 2002-10-11 01:28 am (UTC)
From: [identity profile] snyders.livejournal.com
Руками проверял, я скриптов не писец. Порог 3 -- оценка, если будет скрипт, надо поиграть, настроить.

Profile

snyders: (Default)
snyders

December 2025

S M T W T F S
 123456
78910111213
14151617181920
21222324252627
282930 31   

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jan. 14th, 2026 05:31 am
Powered by Dreamwidth Studios