Что найти?

Поиск уникальных слов в текстовом файле в Python

/
/

Чтобы найти уникальные слова в текстовом файле в Python, необходимо очистить текст, найти слова, а затем найти уникальные.

Для этого выполните следующие действия:

  1. Читать текстовый файл в режиме чтения.
  2. Преобразование текста в нижний или верхний регистр. Мы не хотим, чтобы «apple» отличалось от «Apple».
  3. Разделить содержимое файла на список слов.
  4. Удалите слова, заполненные знаками препинания, что-то вроде удаления из слов точек, запятых и т.д.
  5. Также удалите апострофы.
  6. Вы также можете добавить сюда дополнительные шаги по очистке текста.
  7. Теперь найдите уникальные слова в списке, используя For Loop и Membership Operator.
  8. Найдя уникальные слова, отсортируйте их для представления.

В очистке текста также можно убрать вспомогательные глаголы и т.д.

Пример 1

Теперь мы применим все вышеупомянутые шаги к работе с помощью программы Python.

Возьмем следующий текстовый файл.

Apple is a very big company. An apple a day keeps doctor away. A big fat cat came across the road beside doctor's office.
The doctor owns apple device.
text_file = open('data.txt', 'r')
text = text_file.read()

#cleaning
text = text.lower()
words = text.split()
words = [word.strip('.,!;()[]') for word in words]
words = [word.replace("'s", '') for word in words]

#finding unique
unique = []
for word in words:
    if word not in unique:
        unique.append(word)

#sort
unique.sort()

#print
print(unique)

Вывод:

['a', 'across', 'an', 'apple', 'away', 'beside', 'big', 'came', 'cat', 'company', 'day', 'device', 'doctor', 'fat', 'is', 'keeps', 'office', 'owns', 'road', 'the', 'very']

Ниже приводится список концепций в Python, которые мы использовали в указанной выше программе для поиска уникальных слов:

  • open(), чтобы получить ссылку на файловый объект.
  • file.read() для чтения содержимого файла.
  • str.lower() для преобразования текста в нижний регистр.
  • str.split() для разделения текста на слова, разделенные пробелами, например одиночный пробел, новая строка, табуляция и т.д.
  • str.strip() для удаления знаков препинания с краев слов.
  • str.replace() для замены ничем в конце слов.
  • Цикл for для перебора каждого слова в списке слов.
  • in – оператор членства, чтобы проверить, присутствует ли уникальное слово.
  • list.append(), чтобы добавить слово в уникальный список.
  • list.sort() для сортировки уникальных слов в лексикографическом порядке возрастания.
  • print() для печати списка уникальных слов.

В этом руководстве мы узнали, как находить уникальные слова в txt файле с помощью примера.

  1. Хороший пример. Также, для укорачивания и простоты кода, можно сразу после очистки слов, преобразовать список в set, где объекты не могут повторяться.

Оставить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

This div height required for enabling the sticky sidebar