نوع مقاله : مقاله پژوهشی
نویسندگان
1 ندارم
2 ندارد
چکیده
هدف: این پژوهش بهدنبال توسعه مدلی است که بتواند به کمک الگوریتمهای یادگیریماشین و تکنیکهای متنکاوی، صرفاً با تحلیل خلاصهکتاب، موضوع یک کتاب را به صورت خودکار شناسایی کند. در این تحقیق از یک مجموعهداده ساختاریافته شامل نامکتاب، خلاصه و موضوع استفاده شده است. هدفنهایی، ارائه مدلی است که نهتنها به لحاظ فنی دقیق باشد، بلکه در کاربردهای واقعی مانند موتورهای پیشنهاد کتاب و پلتفرمهای کتابخوانی دیجیتال نیز قابلاستفاده باشد.
روش:دادهها ازطریق وباسکراپینگ و وبکرالینگ، از منابعمعتبر شامل Goodreads، Ketabrah و Fidibo جمعآوری شدهاند. داده هایخام، تحت فرایندهایی مانند پاکسازیمتنی، نرمالسازی و آمادهسازی ویژگیها(Data Preprocessing) قرار گرفتند. فرآیند ﭘﯿﺶﭘﺮﺩﺍﺯﺵ ﺷﺎﻣﻞ3 ﻣﺮﺣﻠﻪ ﺍﺳﺖ: ﺍﺑﺘﺪﺍ، ﺗﻤﺎﻡ ﮐﺎراکترهایخاص حذف ﻣﯽ ﺷﻮﻧﺪ ﻭ ﺳﭙﺲ هرﮐﻠﻤﻪ ﺑﻪ ریشهﻣﻮرﻓﻮﻟﻮژﯾﮑﯽ خود ﺗﺠﺰﯾﻪ میشود. سپس، تمام ایستواژهها ﻧﯿﺰ از ﺧﻼﺻﻪ ﮐﺘﺎبها ﺣﺬف ﻣﯽ ﺷﻮﻧﺪ، زﯾﺮﺍ در ﮐﺎﺭ ﭘﯿﺶ ﺑﯿﻨﯽ ﮐﻤﮑﯽ نخواهند کرد. استخراج ویژگی از خلاصه کتاب پیشپردازششده با استفاده از آماره Tf-idf انجام میشود. درنهایت، رگرسیون لجستیک و ماشینبردارپشتیبان (SVM) بهمنظور استخراج روابطپنهان میان موضوعکتاب و خلاصه آن مورد استفاده قرار گرفتند.
یافتهها: با تقسیمبندی 80-20% دادهها برای آموزش و آزمایش، دقت حاصلشده از اجرای الگوریتمهای رگرسیون لجستیک، ماشینبردارپشتیبانخطی و ماشینبردارپشتیبان RBF به ترتیب 80%، 79%و 79.7% میباشد. همچنین با تقسیم بندی 90-10% رکوردها، دقت حاصلشده از اجرای الگوریتمهای فوق به ترتیب82.2%، 78.6%و 79.3% بدست آمد.
نتیجهگیری: نتایج حاصل نشان داد که الگوریتمرگرسیونلجستیک بهترین دقت پیشبینی را در میان مدلهای آزمایش شده ارائه میدهد. سرعت آموزش و پیشبینی بالای رگرسیونلجستیک، آن را به گزینهای مناسب برای مسائلی از نوع تحلیلهای متنی و دستهبندیهای چندکلاسه تبدیل کرده است.
کلیدواژهها
موضوعات
عنوان مقاله [English]
Intelligent Thematic Classification of Books Based on Summary Analysis and Supervised Learning
نویسندگان [English]
- Maryam Ghadimi Nik 1
- Heliehsadat Hajimohammadi 2
1 NA
2 NA
چکیده [English]
Objective:
This research aims to develop a data-driven model to automatically identify the subject of a book using machine learning algorithms and text mining techniques. The study utilizes a structured dataset containing book titles, summaries, and subjects. The ultimate goal is to build a model that is technically accurate and practical for real-world applications like book recommendation engines and digital reading platforms.
Method:
Data were collected through web scraping and crawling from reliable sources including Goodreads, Ketabrah, and Fidibo. The raw data went through preprocessing steps including removal of special characters, morphological stemming, and stop-word elimination. Feature extraction was performed on the cleaned summaries using the Tf-idf statistic. Various statistical models, such as Logistic Regression and Support Vector Machines (SVM), were applied to discover hidden relationships between the book’s subject and its summary.
Findings:
Using an 80-20% split for training and testing, Logistic Regression, Linear SVM, and RBF SVM achieved accuracies of 80%, 79%, and 79.7%, respectively. With a 90-10% split, the accuracies were 82.2%, 78.6%, and 79.3%, respectively.
Conclusion:
Results indicate that Logistic Regression provides the best prediction accuracy. Its fast training and prediction times make it a suitable choice for textual analysis and multi-class classification tasks related to book subject identification.
کلیدواژهها [English]
- Book topic classification
- Logistic Regression
- Support Vector Machine
- Text Mining
- Machine Learning