تشخیص ابرکلید در تولیدمحتوا با ابزار Orange

موضوع شبیه سازی:  استخراج مجموعه الگو های پرتکرار برای تشخیص ابر کلیدها در ایجاد و تولید محتوای سبز

ابزار استفاده شده: ابزار قدرتمند Orange

نرم افزار Orange یک ابزار بسیار کارآمد بر پایه زبان برنامه‌نویسی پایتون است که با استفاده از آن به صورت بصری می‌توان عملیات داده‌کاوی (متن، تصویر، صوت و ویدیو) را بدون نیاز به کدنویسی انجام داده و خروجی مناسبی را تهیه نمود.

این نرم افزار بیشتر در حوزه مصورسازی اطلاعات و داده کاوی کاربرد دارد. همچنین، این ابزار قابلیت نصب انواع پلاگین های مختلف را دارا می باشد.

 

یک صفحه یا چندین صفحه که حاوی داده می باشد را در نظر میگیریم. قصد داریم چندین ابرکلید برای محتوای مورد نظر تولید کنیم؛ از آنجایی که خزنده های موتورهای جستوگر مانند: گوگل، داک داک، بینگ و .... از طریق وب کاوی و استخراج داده های پر تکرار عملیات رتبه دهی را انجام می دهند، از این سو، تشخیص ابرکلید ها و درج آنها به صفحه مربوط از اهمیت بالایی در بحث هایی مانند دیجیتال مارکتینگ، سئو و... برخوردار است.

 

در این شبیه سازی هدف و داده های مورد ما یک صفحه ویکی پدیا می باشد که توسط متن کاوی قادر هستیم ابرکلید های تاثیر گذار را تشخیص دهیم.

شبیه سازی با Orange

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

همین طور که در عکس فوق مشاهده میکنید عملیات شبیه سازی از چندین مرحله ایجاد شده است که هر کدام در بخش مجزا توضیح داده می شود.

  1. Corpus ورودی الگوریتم یا دیتاست شبیه سازی می باشد، این ورودی می تواند یک فایل اکسل یا یک صفحه وب یا یک لینک حاوی اطلاعات باشد.
  2. Preprocess Text در این قسمت هرس زدایی انجام می شود، در یک صفحه اطلاعات یا ورودی ممکن است چندین کلمه های اضافه یا حرف های ربط وجود داشته باشند که ما در این شبیه سازی از این نوع کلمات برای اینکه زمان پاسخ را کاهش دهیم، صرف نظر میکنیم.
  3. Word Cloud بخش حیاتی شبیه سازی، در این قسمت با استفاده از یک آستانه که ما 60 مدنظر قرار گرفتیم، میزان تکرار هر کلمه مشخص می شود. کلماتی که بیشتر از آستانه تعداد تکرار بالایی داشته باشند به عنوان ابرکلید در نظر گرفته می شود.
  4. Data Table خروجی بخش سوم را به صورت ستونی به نمایش در می­آوریم. ستون اول نام کلمه می باشد و ستون دوم وزن کلمه می باشد.
  5. Distributions میزان توزیع هر کلمه یا مصور سازی اطلاعات و نتیجه در این بخش انجام می شود که می توان بالاترین تکرار هر کلمه را به آسانی یافت و در ایجاد تولید محتوا استفاده کرد.

 

لینک ورودی الگوریتم که حاوی داده می باشد:

https://en.wikipedia.org/wiki/NoSQ

 

شبیه سازی با orange

شبیه سازی داده کاوی

متن کاوی و شبیه سازی

داده کاوی

مصورسازی اطلاعات