تجزئة النص

تجزئة النص هي عملية تقسيم النص المكتوب إلى وحدات ذات معنى مثل الكلمات، الجمل، أو الموضوعات. ينطبق المصطلح على كل من العمليات العقلية التي يستخدمها البشر عند قراءة النص، والعمليات الاصطناعية المنفذة من خلال أجهزة الحاسب، والتي تعتبر من مواضيع مجال معالجة اللغات الطبيعية. هذه العملية ليست سهلة لأنه في حين وجود حدود صريحة للكلمات في بعض اللغات المكتوبة، مثل المسافات بين الكلمات في الإنجليزية المكتوبة وأشكال الحروف المختلفة بحسب موقعها من الكلمة (بداية أو وسط أو نهاية الكلمة) في العربية، فإن هذه الحدود تكون أحيانًا غامضة وغير موجودة في بعض اللغات المكتوبة.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.