کوله کلمات

۰۳ آبان ۱۴۰۰ طراحی وب سایت

کوله کلمات

کاربرد پیش پردازش بیشتر در داده کاوی و یادگیری ماشین می باشد که جز مراحل اولیه یک فرآیند می باشد. در متن کاوی نیز، قبل از عملیات طبقه بندی روی متن یا خوشه بندی، نیاز است که متون به یک فرمت قابل فهم برای کامپیوتر برای محاسبات بعدی تبدیل شوند.

با توجه به دروس داده های غیرساختاریافته می توان متوجه شد که متن و اسناد از نوع غیر ساختار یافته هستند. از این رو، نیاز است تا این داده ها با یک سری عملیات مختلف به دادهای ساختار یافته و قابل درک برای کامپیوتر تبدیل شوند. یکی از این روش ها مدل کوله ای از کلمات bow است.

نمونه مثال:

سه سند در نظر بگیرید که شامل جملات زیر هستند:

جدول (2-4) نمونه مثال از کوله کلمات

گربه ها کوچک هستند.

سگ ها بزرگ هستند.

سگ ها دوست دارند با گربه ها بازی کنند.

 

 

 

 

 

برای اعمال وزن دهی به جملات بالا، ابتدا بایستی به هر کدام یک عدد یکتا نسبت دهیم.

گربه­ها(1) کوچک(2) هستند(3) سگ­ها(4) بزرگ(5) دوست(6) دارند(7) با(8) بازی(9) کنند(10)

در عبارت بالا از تکرار کلمه ها جلوگیری کردیم. مانند گربه ها- هستند- سگ ها و فقط یک عدد یکتا اختصاص دادیم.

ما برای عملیات داده کاوی نیاز داریم ویژگی های مختلف (مهندسی ویژگی) بسازیم. پس ماتریس بالا به صورت زیر می باشد.

جدول (2-5) نتیجه الگوریتم کوله کلمات

#

گربه­ها

کوچک

هستند

سگ ها

بزرگ

دوست

دارند

با

بازی

کنند

جمله اول

1

1

1

0

0

0

0

0

0

0

جمله دوم

0

0

1

1

1

0

0

0

0

0

جمله سوم

1

0

0

1

0

1

1

1

1

1

 

 

 

 

 

 

در ماتریس بالا هر سطر یک جمله را نشان می دهد و هر ستون یک کلمه را. اگر یک کلمه در یک جمله وجود داشته باشد آن خانه با عدد یک پر می شود و اگر وجود نداشته باشد با صفر پر می­شود. به این صورت کوله ای از کلمات در ماتریس ساخته می­شود و این ماتریس می تواند در عملیات بعدی مانند طبقه بندی یا خوشه بندی استفاده گردد. در نتیجه، کاربرد و استفاده ماتریس در کامپیوتر آسانتر از کار روی یک سند غیرساختاریافته می­باشد.