stars Mr. X
The movie
was horrible!
شکل ۱-۱ دسته بندی متون : متون به دو دسته حقایق و عقاید تقسیم میشوند. حقایق یک واقعیت که بصورت علمیو عملی در دنیای خارج وجود دارد را بیان میکنند(Factual). عقاید نظر، احساس یا عقیده کاربر را درباره موجودیت بیان میکنند(Sentimental).
قبل از سال ۲۰۰۰ به دلیل کمبود منابع دادهای و کمبود متون حاوی نظرات و عقاید در تارنمای گسترده جهانی[۳] تحقیقات اندکی در این زمینه به انجام رسیده است. امروزه با گسترش اینترنت و همهگیر شدن شبکههای اجتماعی، کاربران میتوانند نظرات خود درباره محصولات یا خدمات را در سایتهای تجاری، شبکههای اجتماعی، وبلاگها بیان کنند؛ صفحات وب متون زیادی را در بر دارند که مشتمل بر نظرات، عقاید، ارزیابی کاربران پیرامون یک کالا یا خدمات خاص هستند. اطلاعاتی که از این نوع دادهها قابل دستیابی است، برای شرکتهای سازنده و همچنین سازمانهای ارائه کننده خدمات بسیار مفید و گاهی ضروری خواهند بود. همچنین برای کاربرانی که قصد انتخاب خدمات یا یک نوع کالا را دارند راهنمایی مفیدی را ارائه میدهند. شخصی را در نظر بگیرید که قصد دارد موبایل یا دوربین دیجیتالی بخرد، برای آگاهی از کیفیت دوربین و مطلوبیت خدمات شرکت سازنده بدون شک به پرسش و جمع آوری اطلاعات از اطرافیان روی خواهد آورد، ولی امروزه با رشد اینترنت میتوان بصورت آنلاین نظرات و تجربیات صدها نفر را درباره یک کالای خاص مطالعه کرد و برای تصمیم گیری از آنها مدد گرفت.
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت nefo.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
امروزه تعدد و گوناگونی منابع اینترنتی حاوی نظرات و احساسات کاربران به حدی زیاد شده است که یافتن و ارزیابی آنها کار بسیار پیچدهای است. در بسیاری موارد نظرات و عقاید کاربر در یک پست طولانی پنهان شده است. برای استخراج نظرات و عقاید درباره یک موجودیت باید در ابتدا منابع اینترنتی مرتبط با آن را یافت سپس متن مورد نظر خوانده شود، جملات بیان کننده نظرات و عقاید کاربر از متن استخراج شوند، خلاصه سازی شوند و به فرم قابل استفاده تبدیل شوند. از جمله مشکلاتی که در این زمینه وجود دارد حجم زیاد داده میباشد. در صفحه توییتر شخصی جاستین بیبر روزانه ۳۰۰۰۰۰ نظر ثبت میشود [۲۲]. این حجم از دادهها میتوانند اطلاعات مفیدی را برای شرکتها و همچنین مشتریها به همراه داشته باشند؛ ولی پردازش آنها بصورت دستی و انسانی غیر ممکن میباشد، لذا طراحی یک روش اتوماتیک برای تحلیل متن و استخراج نظرات و عقاید موجود در متن ضروری است. در همین راستا تلاشهای فراوانی صورت گرفته است، مثلا در کشور آمریکا ۲۰ تا ۳۰ شرکت به ارائه خدمات تخصصی تحلیل احساس میپردازند [۱۷].
در این رساله روشی برای تحلیل احساس ارائه میشود. روش پیشنهادی سعی در ارائه مجموعه مناسبی از خصیصهها[۴] را دارد به نحوی که بتوان به دقت بهتری در ارزیابی اتوماتیک متون دست یافت، همچنین تعداد خصیصهها در حد متناسبی حفظ شود. برای انتخاب خصیصهها از الگوریتمهای ساده و با حداقل پیچیدگی زمانی بهره میبریم و نیاز به استفاده از الگوریتم انتخاب خصیصه با پیچیدگی زمانی بالا مرتفع شده است.
تحلیل احساس در متن
تحلیل احساس در واقع مطالعه محاسباتی نظرات عقاید و احساسات بیان شده در متن است. متن زیر نظر یک کاربر درباره iphone است.
“(۱) I bought an iphone a few days ago. (2) It was such a nice phone. (3) The touch screen was really cool. (4) The voice quality was clear. (5) Although the battery life was not long, that is ok for me. (6) However my mother was mad with me as I did not tell her before I bough it. (7) She also thought the phone was too expensive, and wanted me to return it to shop……”
چه اطلاعاتی میتوان از متن استخراج کرد ؟ ابتدا باید توجه کنیم چند نظر در این متن وجود دارد، جملات (۲)، (۳) و (۴) نظرات مثبتی را بیان میکنند. جملات (۵)، (۶) و (۷) نظرات منفی را بیان میکنند. آیا نظرات بیان شده درباره یک موجودیت بیان شدهاند؟ این موجودیت کدام است؟ جمله (۲) بصورت کلی نظری را درباره iphone بیان کرده است. جملات (۳)، (۴) و (۵) نظراتی درباره صفحه لمسی، وضوح صدا و طول عمر باتری بیان میکنند. جمله (۷) عقیده مشتری نسبت به قیمت موبایل را بیان میکند. ولی نظرات بیان شده در جمله (۶) درباره شخص میباشد نه درباره موبایل iphone. این نکته بسیار مهم است باید توجه داشت متنی که حاوی نظرات کابران میباشد لزوما درباره یک موجودیت خاص نیست، ممکن است در طول متن نظرات مثبت و منفی درباره موجودیتهای متفاوت بیان شده باشد.
تحلیلگر احساس و عقاید معمولا ورودیهای خود(جملات، اسناد) را به دو گروه نظرات و عقاید مثبت و نظرات و عقاید منفی دستهبندی میکند. برخی از تحقیقات نیز ضعیف یا قوی بودن نظرات در نظر گرفتهاند و متون در ۴ گروه دسته بندی میشوند. گروه اول نظرات کاملا منفی، دوم نظرات کمیمنفی، سوم نظرات کمیمثبت، چهارم نظرات کاملا مثبت.
فرایند تحلیل احساس در سه سطح انجام میشود:
-
- در سطح کلمات
-
- در سطح جمله
-
- در سطح سند.
برای هر سطح پیش فرضها و وظایفی برشمرده میشود که باید در تحلیلگر لحاظ شوند. در ادامه به تشریح تحلیلگر احساس در سطوح متفاوت خواهیم پرداخت.
تحلیلگر احساس در سطح کلمه یک سند یا مجموعه ای از جملات را به عنوان ورودی دریافت میکند. ابتدا کلمات متفاوت که ویژگیهای یک موجودیت را بیان میکنند را از متن استخراج میکند. سپس نظرات بیان شده در متن پیرامون ویژگیهای موجودیت را تشخیص میدهد. شکل۱-۲ یک مثال از عملکرد تحلیلگر احساس در سطح کلمه را بیان میکند.
شکل ۱-۲ تحلیلگر احساس در سطح کلمه: ورودی تحلیلگر احساس در سطح متن یک سری جملات هستند. خروجی آن ویژگی های موجودیت مورد بحث(در این مثال موبایل) و نمره مثبت یا منفی که بر اساس متن به هر کدام از ویژگی ها داده شده است.
همانطور که در شکل ۱-۲ قابل مشاهده است، تحلیلگر احساس در سطح کلمه یک سند را به عنوان ورودی دریافت میکند، ویژگی های شئ مورد بحث در سند را استخراج میکند(شئ مورد بحث:موبایل، ویژگی های شئ مورد بحث:کیفیت صدا و عمر باطری) و در پایان بر اساس نظرات بیان شده در سند به ویژگیهای استخراج شده در مرحله قبل، نمره مثبت یا منفی میدهد.
تحلیل احساس در سطح جمله مانند تحلیلگر احساس در سطح کلمه یک سند یا مجموعهای از جملات را به عنوان ورودی دریافت میکند. جملات متن را تشخیص داده و بر اساس محتوای متن آنها را دستهبندی میکند؛ دسته اول جملات حاوی نظرات مثبت و دسته دوم جملات حاوی نظرات منفی. شکل ۱-۳ مثال تحلیلگر احساس در سطح جمله را بیان میکند.
شکل ۱-۳ تحلیلگر احساس در سطح جمله : ورودی تحلیلگر احساس در سطح جمله یک سری جملات هستند. خروجی آن، جملات طبقهبندی شده در دو دسته مثبت و منفی هستند.
تحلیلگر احساس در سطح سند(شکل ۱-۴) که هدف از این رساله نیز میباشد، تعدادی اسناد را دریافت میکند و آنها را در دو دسته اسناد حاوی نظر مثبت و اسناد حاوی نظر منفی طبقهبندی میکند. در این روش تحلیل احساس فرض بر آن است که هر سند درباره یک موجودیت واحد بحث میکند و همه نظرات مثبت و منفی درون سند درباره یک موجودیت واحد میباشد. با این کار طراحی تحلیلگر ساده میشود.
با این فرض که در هر سند فقط درباره یک موجودیت بحث میشود دیگر نیازی نیست با بسیاری از پیچیدگیهایی که در پردازش زبان طبیعی با آن مواجه هستیم دست و پنجه نرم کنیم. پس از سال ۲۰۰۰ تا کنون تحقیقات فراوانی در این زمینه به انجام رسیده است؛ با این وجود بسیاری از مشکلات در این زمینه هنوز حل نشده باقی ماندهاند. در این رساله به برخی از این مشکلات پرداخته و روشهایی را برای غالب آمدن بر این مشکلات بیان خواهیم کرد.
شکل ۱-۴ تحلیلگر احساس در سطح سند: مجموعهای از اسناد را دریافت میکند با تحلیل محتوای هر سند و با بهره گرفتن از روشهای یادگیری ماشین، اسناد را در دو دسته اسناد حاوی نظرات مثبت و اسناد حاوی نظرات منفی تقسیم بندی میکند.
اهداف رساله
هدف از این رساله ارائه روشی برای تحلیل احساس در مجموعهای از اسناد میباشد، به گونه ای که اسناد در دو گروه نظرات مثبت و نظرات منفی طبقه شوند. از جمله مشکلاتی که برای تحلیل احساس وجود دارد حجم زیاد متون است، برای مثال تعداد خصیصههای استخراج شده از مجموعه داده فیلمها بالغ بر پنجاه هزار خصیصه بود [۴]. همچنین خصیصههای زبان شناختی فراوانی وجود دارد که باید از این میان بهترین خصیصههای را بیابیم و برای مدلسازی متون از آنها استفاده کنیم. در این رساله تلاش بر آن بوده تا بتوانیم مجموعه مناسبی از خصیصهها را انتخاب کنیم و با داشتن حداقل خصیصهها از یک الگوریتم انتخاب خصیصه با پیچیدگی زمان کم استفاده شود. در این رساله دو مجموعه داده فارسی و انگلیسی بررسی خواهند شد. ابتدا سعی میکنیم روش مناسبی برای تحلیل احساس در متون انگلیسی ارائه دهیم سپس روش ارائه شده را به زبان فارسی تعمیم خواهیم داد.
روش کار
برای انجام پایان نامه در مرحله اول مبانی نظری و راهکارهای موجود، در ارتباط با تحلیل احساس موجود درمتن و تشکیل بردار خصیصهها با بهره گرفتن از خصیصههای زبان شناختی مورد مطالعه قرار گرفتهاند. سپس با تحلیل و بررسی روشهای موجود نقات ضعف و قوت این روشها را مورد توجه قرار داده تا بتوانیم با ترکیب یا بهبود آنها به روش بهتری دست یابیم. در ادامه روش پیشنهادی را با بهره گرفتن از دادههای موجود مورد تست و ارزیابی قرار دادهایم. به دنبال آن، با تحلیلهای انجام شده بر روش پیشنهادی، مشکلات موجود را تا حدی برطرف کرده و روشی جامعتر را با دقت عملکرد بهتر ارائه دادیم. در این رساله از ترکیب جدیدی از خصیصههای زبان شناختی استفاده شده است. همچنین برای اولین بار در تحلیل احساس از مفاهیم مبتنی بر Wordnet بهره بردهایم.
ساختار پایان نامه
فصل دوم به طبقهبندی و بررسی شیوههای موجود در تحلیل احساس وعقاید و بررسی روشهای نوین ارائه شده در این زمینه پرداخته است، همچنین کارهای مرتبط و شیوههای مورد استفاده در آنها را بیان کردهایم. در فصل سوم روشهای پیشنهادی برای تحلیل احساسات و عقاید در راستای افزایش دقت و کاهش زمان طبقهبندی ارائه شده است. فصل چهارم عملکردِ روشهای پیشنهادی ارزیابی شده و با روشهای موجود در این زمینه مقایسه میشوند. در پایان فصل چهار نیز برخی از کارهایی که در آینده باید انجام شوند را بیان کردهایم.
فصل دوم کارهای انجام شده
مقدمه
در این فصل ابتدا به بررسی کارهای که پیشتر انجام شده است خواهیم پرداخت و نقاط ضعف و قوّت هر کدام را بصورت کوتاه بیان میکنیم. هر چند تعداد آثار موجود در زمینه تحلیل احساس در متن، فراوان است ولی در این بخش ما تعدادی از تحقیقات مهم را بصورت منتخب بیان خواهیم کرد.
برای مدلسازی اسناد باید مجموعه خصیصههای مفیدی از متن استخراج کنیم. مجموعه خصیصههای مفید خصیصههای هستند که به الگوریتم یادگیری ماشین برای طبقهبندی دادهها کمک کنند. این خصیصهها باید به نحوی انتخاب شوند که بهترین مدل ممکن از اسناد را ارائه دهند و باید توجه کنیم هدف این مدل تحلیل احساس است لذا باید بیشترین اطلاعات ممکن به منظور تحلیل احساس را در اختیار نرمافزار طبقهبندی قرار دهند. با توجه به حجم متن اسناد و تعداد این اسناد، بردار خصیصهی حاصل بزرگ خواهد بود، که این امر مشکلاتی را به همراه دارد. از جملهی این مشکلات کاهش کارایی و دقت طبقهبندی را میتوان نام برد، لذا باید از روش انتخاب خصیصه استفاده کرد تا بتوان سودمندترین خصیصهها را از میان هزاران خصیصه استخراج کرد. در ابتدا تاریخچه تحقیق در زمینه تحلیل احساس در متن را بیان خواهیم کرد، سپس مجموعه خصیصههای N-gram مورد استفاده و کارهایی که از آنها استفاده کردهاند را بیان میکنیم، پس از آن روشهای انتخاب خصیصه معروف و تحقیقاتی که از آنها استفاده کردهاند را بیان خواهیم کرد.
تعریف مسئله
برای حل کردن هر مسئله، ابتدا باید یک تعریف مناسب از مسئله را ارائه دهیم. در فصل قبل هدف از این رساله را تحلیل احساسات و عقاید در سطح سند معرفی کردیم.
چنانچه D مجموعه ای از اسناد باشد، سیستم ارائه شده باید تشخیص دهد D d نظر مثبت یا نظر منفی را درباره یک شی O بیان میکند.