طبقه بندی هوشمند موضوعی کتاب بر پایه تحلیل خلاصه ‌متن و یادگیری نظارت شده

قدیمی نیک, مریم; حاجی محمدی, حلیه سادات

doi:10.22034/jkrs.2026.69800.1201

مقالات آماده انتشار

نوع مقاله : مقاله پژوهشی

نویسندگان

¹ کارشناسی ارشد مدیریت فناوری اطلاعات، دانشگاه شهید بهشتی

² کارشناسی مهندسی نرم افزار دانشگاه غیرانتفاعی شهاب دانش

10.22034/jkrs.2026.69800.1201

چکیده

هدف: این پژوهش به‌دنبال توسعه‌ مدلی است که بتواند به کمک الگوریتم‌های یادگیری‌ماشین و تکنیک‌های متن‌کاوی، صرفاً با تحلیل خلاصه‌کتاب، موضوع یک کتاب را به‌ صورت خودکار شناسایی کند. در این تحقیق از یک مجموعه‌داده‌ ساختاریافته شامل نام‌کتاب، خلاصه و موضوع استفاده شده است. هدف‌نهایی، ارائه‌ مدلی است که نه‌تنها به لحاظ فنی دقیق باشد، بلکه در کاربردهای واقعی مانند موتورهای پیشنهاد کتاب و پلتفرم‌های کتاب‌خوانی دیجیتال نیز قابل‌استفاده باشد.

روش:داده‌ها ازطریق وب‌اسکراپینگ و وب‌کرالینگ، از منابع‌معتبر شامل Goodreads، Ketabrah و Fidibo جمع‌آوری شده‌اند. داده ‌های‌خام، تحت فرایندهایی مانند پاک‌سازی‌متنی، نرمال‌سازی و آماده‌سازی ویژگی‌ها(Data Preprocessing) قرار گرفتند. فرآیند ﭘﯿﺶﭘﺮﺩﺍﺯﺵ ﺷﺎﻣﻞ3 ﻣﺮﺣﻠﻪ ﺍﺳﺖ: ﺍﺑﺘﺪﺍ، ﺗﻤﺎﻡ ﮐﺎراکترهای‌خاص حذف ﻣﯽ ﺷﻮﻧﺪ ﻭ ﺳﭙﺲ هرﮐﻠﻤﻪ ﺑﻪ ریشهﻣﻮرﻓﻮﻟﻮژﯾﮑﯽ خود ﺗﺠﺰﯾﻪ می‌شود. سپس، تمام ایست‌واژه‌ها ﻧﯿﺰ از ﺧﻼﺻﻪ ﮐﺘﺎب‌ها ﺣﺬف ﻣﯽ ﺷﻮﻧﺪ، زﯾﺮﺍ در ﮐﺎﺭ ﭘﯿﺶ ﺑﯿﻨﯽ ﮐﻤﮑﯽ نخواهند کرد. استخراج ویژگی از خلاصه کتاب پیش‌پردازش‌شده با استفاده از آماره Tf-idf انجام می‌شود. درنهایت، رگرسیون لجستیک و ماشین‌بردار‌پشتیبان (SVM) به‌منظور استخراج روابط‌پنهان میان موضوع‌کتاب و خلاصه آن مورد استفاده قرار گرفتند.

یافته‌ها: با تقسیم‌بندی 80-20% داده‌ها برای آموزش و آزمایش، دقت حاصل‌شده از اجرای الگوریتم‌های رگرسیون لجستیک، ماشین‌بردار‌پشتیبان‌خطی و ماشین‌بردار‌پشتیبان RBF به ترتیب 80%، 79%و 79.7% می‌باشد. همچنین با تقسیم بندی 90-10% رکوردها، دقت حاصل‌شده از اجرای الگوریتم‌های فوق به ترتیب82.2%، 78.6%و 79.3% بدست آمد.

نتیجه‌گیری: نتایج حاصل نشان داد که الگوریتم‌رگرسیون‌لجستیک بهترین دقت پیش‌بینی را در میان مدل‌های آزمایش شده ارائه می‌دهد. سرعت آموزش و پیش‌بینی بالای رگرسیون‌لجستیک، آن را به گزینه‌ای مناسب برای مسائلی از نوع تحلیل‌های متنی و دسته‌بندی‌های چندکلاسه تبدیل کرده است.

کلیدواژه‌ها

موضوعات

ابعاد سخت‌افزاری، نرم‌افزاری مطالعات داده، اطلاعات و دانش

عنوان مقاله [English]

Intelligent Thematic Classification of Books Based on Summary Analysis and Supervised Learning

نویسندگان [English]

Maryam Ghadimi Nik ¹
Heliehsadat Hajimohammadi ²

¹ NA

² NA

چکیده [English]

Objective:
This research aims to develop a data-driven model to automatically identify the subject of a book using machine learning algorithms and text mining techniques. The study utilizes a structured dataset containing book titles, summaries, and subjects. The ultimate goal is to build a model that is technically accurate and practical for real-world applications like book recommendation engines and digital reading platforms.

Method:
Data were collected through web scraping and crawling from reliable sources including Goodreads, Ketabrah, and Fidibo. The raw data went through preprocessing steps including removal of special characters, morphological stemming, and stop-word elimination. Feature extraction was performed on the cleaned summaries using the Tf-idf statistic. Various statistical models, such as Logistic Regression and Support Vector Machines (SVM), were applied to discover hidden relationships between the book’s subject and its summary.

Findings:
Using an 80-20% split for training and testing, Logistic Regression, Linear SVM, and RBF SVM achieved accuracies of 80%, 79%, and 79.7%, respectively. With a 90-10% split, the accuracies were 82.2%, 78.6%, and 79.3%, respectively.

Conclusion:
Results indicate that Logistic Regression provides the best prediction accuracy. Its fast training and prediction times make it a suitable choice for textual analysis and multi-class classification tasks related to book subject identification.

کلیدواژه‌ها [English]

Book topic classification
Logistic Regression
Support Vector Machine
Text Mining
Machine Learning

نشریه مطالعات دانش پژوهی

طبقه بندی هوشمند موضوعی کتاب بر پایه تحلیل خلاصه ‌متن و یادگیری نظارت شده

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 20 فروردین 1405

طبقه بندی هوشمند موضوعی کتاب بر پایه تحلیل خلاصه ‌متن و یادگیری نظارت شده

مقالات آماده انتشار، پذیرفته شده انتشار آنلاین از تاریخ 20 فروردین 1405

مقالات آماده انتشار، پذیرفته شده
انتشار آنلاین از تاریخ 20 فروردین 1405