بهبود تجزیه و تحلیل روند با استفاده از ویژگی های شبکه های اجتماعی

ساخت وبلاگ

در سالهای اخیر ، حجم زیادی از داده ها توسط محققان و سازمان ها به طور گسترده مورد مطالعه قرار گرفته است. در این زمینه ، تجزیه و تحلیل روند یکی از مهمترین زمینه ها است. به طور معمول ، نتایج پیش بینی خوب به دلیل متغیرهای ناشناخته که می تواند رفتارهای موضوع را توضیح دهد ، به دست آوردن نتایج خوب است. این مقاله فراتر از روشهای شناسایی روند استاندارد است که فقط رفتار تاریخی اشیاء را با شامل ساختار منابع اطلاعاتی ، یعنی معیارهای شبکه اجتماعی ، به عنوان یک بعد اضافی برای مدل سازی و پیش بینی روند در طول زمان در نظر می گیرند. نتایج حاصل از مجموعه ای از آزمایشات نشان می دهد که از جمله چنین معیارهایی ، دقت پیش بینی را بهبود بخشیده است. آزمایشات ما عناوین انتشار را ، همانطور که در پایگاه داده Lattes برزیل ثبت شده است ، از تمام دکتری در نظر گرفت. در علوم کامپیوتر ثبت شده در پلت فرم Lattes برزیل برای دوره های مورد تجزیه و تحلیل به منظور ارزیابی رویکرد پیش بینی روند پیشنهادی.

معرفی

فعالیت های محور داده ها در بسیاری از انواع سازمان ها بیشتر و بیشتر می شوند و تجزیه و تحلیل داده ها به کانون اصلی تجارت تبدیل می شوند. در این زمینه ، تجزیه و تحلیل روند کاربرد اصلی تجزیه و تحلیل داده ها است. سازمانها ممکن است سعی کنند روندهای ایجاد استراتژی ها و برنامه های برنامه ریزی را شناسایی کنند ، به عنوان مثال ، یک شرکت تجارت الکترونیکی ممکن است سعی کند روندها را به منظور تمرکز بهتر فعالیت های زنجیره تأمین خود شناسایی کند.

چندین روش برای پیش بینی استفاده می شود و بیشتر آنها بر اساس رفتار زمانی موضوع مورد مطالعه است. معمولاً رفتار زمانی به عنوان یک سری زمانی مدل می شود ، جایی که زمان رفتار متغیر مربوطه را توضیح می دهد. با این حال ، هنگامی که این افراد توسط افراد تولید یا مصرف می شوند (به عنوان مثال متون روزنامه نگاری یا محصولات جدید فناوری) ، یکی دیگر از عوامل را می توان در نظر گرفت: ساختار اجتماعی ژنراتورها یا مصرف کنندگان ، یعنی افرادی که مستقیماً با شیء مورد تجزیه و تحلیل ارتباط دارندبشریک شبکه اجتماعی در این زمینه را می توان در اطراف این افراد الگوبرداری کرد. گره ها می توانند تولید کنندگان (یا مصرف کنندگان) را نشان دهند و لبه ها می توانند روابط بین آنها را نشان دهند. با توجه به محتوای پست های وبلاگ به عنوان نمونه ، می توان یک شبکه اجتماعی را بر اساس اتصالات بین وبلاگ نویسان ، یعنی لینک های پیوندی که وب سایت ها را به هم وصل می کند ، ساخته شود.

تحلیل و کمی سازی رفتارها و روابط افراد در ساختار اجتماعی با استفاده از تحلیل شبکه اجتماعی قابل انجام است. ما می توانیم معیارهای اجتماعی را برای درک تأثیرات، مرکزیت ها و جوامع برای پیش بینی انتشار اطلاعات در شبکه محاسبه کنیم [10، 15، 17، 18، 24، 25]. همانطور که ویژگی‌های شبکه اجتماعی را با توجه به معیارهای محاسبه شده درک می‌کنیم، می‌توانیم تشخیص دهیم که با انتشار اطلاعات به کدام افراد دسترسی پیدا می‌کند. به ما این امکان را می دهد که بگوییم زمان زیادی طول می کشد یا کوتاه. به عنوان مثال، اطلاعاتی که توسط یک گره بسیار تأثیرگذار در یک بازه زمانی خاص منتشر می شود، می تواند به تعداد بیشتری گره در شبکه برسد تا زمانی که توسط یک گره شبکه غیر تأثیرگذار منتشر شود. ساختار اجتماعی نقش مهمی در رفتار زمانی اشیاء ایفا می کند [8، 24]. این کار با کارهای قبلی تفاوت دارد زیرا علاوه بر استفاده از رفتار زمانی شی مورد مطالعه، ساختار اجتماعی افراد مرتبط با این شی را در مدل‌های پیش‌بینی گنجانده است.

در این مقاله، رویکردی ارائه می‌کنیم که مدل‌های پیش‌بینی مبتنی بر رفتار زمانی شی مورد مطالعه را با معیارهای شبکه اجتماعی ترکیب می‌کند. این رویکرد می‌تواند برای بهبود دقت پیش‌بینی‌های روند که فقط بر اساس رفتار زمانی است و در جایی که امکان مدل‌سازی یک شبکه اجتماعی از تعامل بین افراد مرتبط با شی وجود دارد، اعمال شود. برای هدف این مقاله، ما این رویکرد را در محیط دانشگاهی هم نویسندگی اعمال کردیم. اساساً، ما از مجموعه‌ای از عناوین مقالات منتشر شده در یک دوره خاص برای پیش‌بینی موضوعات اصلی (که به صورت n-گرم ارائه می‌شوند) در آینده استفاده کردیم. این مشکل را می‌توان با رویکردهای تحلیل روند استاندارد که بر پیش‌بینی فرکانس‌های آینده از فرکانس‌های مشاهده‌شده تکیه می‌کنند، حل کرد، در حالی که در این کار ما ویژگی‌های شبکه هم‌نویسندگی را برای افزایش پیش‌بینی‌ها در نظر می‌گیریم. در این مورد، اشیاء در نظر گرفته شده n-gram استخراج شده از عنوان مقاله و افراد نویسندگان مقاله هستند.

این رویکرد با استفاده از داده‌های عناوین انتشارات دکترای علوم کامپیوتر که در برزیل کار می‌کنند، آزمایش و اعتبارسنجی شد و سپس با رویکردهایی که فقط رفتار زمانی شی مورد تجزیه و تحلیل را در نظر می‌گیرند، مقایسه شد.

این مقاله به شرح زیر سازماندهی شده است. بخش "کار مرتبط" برخی از مفاهیم اساسی و کارهای مرتبط را شرح می دهد. بخش "روش شناسی" روشهای مورد استفاده را شرح می دهد. نتایج در بخش "آزمایشات و نتایج" شرح داده شده است. سرانجام ، نتیجه گیری در بخش "نتیجه گیری" ارائه شده است.

کار مرتبط

تجزیه و تحلیل روند سری زمانی

معمولاً زمان در مشکلات پیش بینی و طبقه بندی یک ویژگی بسیار مهم است. هنگامی که درک در مورد رفتار زمانی شیء وجود داشته باشد ، می توان الگوهای و پیش بینی روندها را شناسایی کرد. مدل سازی مشکلی که در آن زمان به عنوان یک متغیر توضیحی در نظر گرفته می شود ، به عنوان تجزیه و تحلیل سری زمانی شناخته می شود [9].

تجزیه و تحلیل روند می تواند برای چندین موضوع مانند بازار سهام [20] ، اسناد متنی [21] و بسیاری دیگر [22] اعمال شود. شناسایی روند در اسناد متنی ، به طور خاص در یک جسد که توسط عناوین مقالات علمی شکل گرفته است ، برنامه ای است که در این مقاله به آن پرداخته شده است. در زمینه اسناد متنی ، از تعداد فرکانس معمولاً به عنوان متغیر وابسته در مدل های سری زمانی استفاده می شود [1].

تجزیه و تحلیل روند شبکه های اجتماعی

روش های زیادی برای الگوبرداری و کشف شبکه های اجتماعی وجود دارد و یکی از شاخه های تحقیق ، تجزیه و تحلیل روند در شبکه های اجتماعی است. چگونه پویایی و تأثیر جریان اطلاعات را اندازه گیری کنیم؟برای پاسخ به این سؤال ، لازم است ویژگی های شبکه و ساختار اتصال آن ، یعنی نحوه توزیع گره ها و لبه ها در شبکه ، مطالعه شود. اطلاعات توسط افراد تولید و منتقل می شود و ساختار اتصال آنها بر نحوه انتشار اطلاعات تأثیر می گذارد [3]. ویژگی بسیار مهم افراد در شبکه تأثیر آنهاست. پیدا کردن گره های تأثیرگذار در شبکه می تواند به توضیح چگونگی گسترش اطلاعات و چه تعداد گره به آن کمک کند. روش هایی برای شناسایی گره های تأثیرگذار وجود دارد [19]. فراتر از سطح فردی ، تجزیه و تحلیل اندازه و تراکم گروه ها در شبکه برای درک پویایی انتشار اطلاعات بسیار مهم است. برای این کار ، شناسایی این گروه ها یا جوامع ، که یک کار بی اهمیت نیست [16] لازم است. چالش دیگر شناسایی نکات مهم در شبکه است که احتمال انتشار اطلاعات افزایش می یابد [2]. سرانجام ، از اطلاعات شبکه اجتماعی به روش های مختلفی برای پیش بینی روندها بر اساس رفتار شبکه استفاده می شود [13].

سیستم های علوم و فناوری چندین برنامه کاربردی مربوط به دانشمندان را در آغوش می گیرند و دانش را می توان به روشی کمی کشف کرد [11]. به عنوان مثال ، بهره وری تحقیق را می توان با مدلهایی که از شاخص های استناد و تجزیه و تحلیل شبکه های اجتماعی دانشگاهی استفاده می کنند ، اندازه گیری کرد [4]. برنامه مورد بررسی در این مقاله همچنین از داده های یک سیستم علمی و فناوری با هدف شناسایی روندها و موضوعات تحقیق استفاده می کند.

کار ما با ترکیب سری زمانی و تجزیه و تحلیل شبکه های اجتماعی با دیگران متفاوت است. رویکرد پیشنهادی از این دو مفهوم استفاده می کند تا روندها بر اساس زمان و خصوصیات اجتماعی افرادی که اطلاعات تولید می کنند مشخص شود.

روش شناسی

روش این کار شامل پنج مرحله است: جمع آوری داده ها ، استخراج اصطلاح ، تجزیه و تحلیل سری زمانی ، تجزیه و تحلیل شبکه های اجتماعی و تجزیه و تحلیل روند. شکل 1 جریان داده شماتیک را نشان می دهد. در بخش های بعدی تمام مراحل اعمال شده در مورد مشکل شناسایی روند برای انتشارات علوم کامپیوتر در زمینه آکادمی برزیل شرح داده شده است. از روش پیشنهادی می توان برای بهبود صحت پیش بینی های روند استفاده کرد که فقط رفتار زمانی را در سناریوها در نظر می گیرد که در آن امکان بازیابی ارتباط بین افرادی که داده ها را تولید می کنند (به عنوان مثال ، شناسایی روند مباحث مورد بحث در وبلاگ نویسی).

جمع آوری اطلاعات

برزیل یک سکوی منحصر به فرد به نام Lattes Platform 1 را حفظ می کند. این یک پایگاه داده از اطلاعات مربوط به علم ، فناوری و نوآوری از جمله نشریات محققان انفرادی است و در حال حاضر بیش از 4. 5 میلیون برنامه درسی ثبت می کند. در این کار ، تمام اطلاعات از پلت فرم Lattes به دست آمده است.

برای جمع آوری داده ها ، برنامه های درسی از تمام دکتری های علوم کامپیوتر برای دوره های مورد تجزیه و تحلیل (شامل 5642 برنامه درسی) انتخاب شدند. پیش پردازش شامل استخراج و سازماندهی اطلاعات با استفاده از روش توصیف شده توسط Digiampietri و همکاران بود.[6 ، 7]. فعالیت های پیش پردازش شامل حذف کلمات متوقف و شناسایی همبستگی بر اساس رویکرد وضوح موجودیت است [7]. از این برنامه های درسی ، 55،710 عنوان از مقالات منتشر شده بین سالهای 1991 و 2012 مشخص شد.

متغیرهای در نظر گرفته شده برای ساخت مجموعه داده عبارتند از: Lattesid (شماره شناسایی محقق) ، سال (سال انتشار) ، عنوان (عنوان انتشار) و انتشار (شناسایی انتشار).

استخراج مدت

در این مقاله ، یک اصطلاح N-GRAM است که از عناوین مقالات استخراج شده است. در این مرحله ، هدف خودکار سازی آماده سازی داده ها بود. مرحله اول استخراج اصطلاح تقسیم عناوین به زیر مجموعه های کلمات یا توالی کلمات بدون کلمه توقف بود. اصطلاحات استخراج شده شامل یک یا چند کلمه متوالی از عناوین به استثنای کلماتی است که به عنوان کلمه توقف ذکر شده اند. به عنوان نمونه ، عنوان تجزیه و تحلیل شبکه اجتماعی برای رسانه های دیجیتال به اصطلاحات زیر تقسیم شد: اجتماعی ، شبکه ، تجزیه و تحلیل ، دیجیتال ، رسانه ، شبکه اجتماعی ، تجزیه و تحلیل شبکه ، رسانه های دیجیتال و تجزیه و تحلیل شبکه های اجتماعی. اصطلاحاتی از قبیل تجزیه و تحلیل رسانه های دیجیتال و رسانه های دیجیتال شامل نمی شوند زیرا با کلمات متوالی از یک عنوان یا به دلیل اینکه شامل کلمه توقف هستند ، شکل نمی گیرند. در این مثال ، ما Unigrams ، Bigrams و 3 گرم به دست آوردیم ، با این حال ، این روند می تواند N-Grams را برای همه n ممکن بدست آورد.

با تمام مجموعه های ممکن ، ما یک سیستم امتیاز دهی را برای شناسایی مهمترین اصطلاحات اتخاذ کردیم. این روش امتیاز دهی مبتنی بر فرکانس مجاور کلمات در اصطلاحات بود. معادله برای اندازه گیری اهمیت هر اصطلاح نامزد:

F (C T) فراوانی اصطلاح نامزد CT ، L F (N I) و R F (N I) به ترتیب فراوانی نامزدهای کلمه چپ و راست را نشان می دهد. این معادله توسط Nakagawa و همکاران به تفصیل شرح داده شده است.[12]در همان کار ، نویسندگان ارزیابی هایی را انجام دادند تا نشان دهند که می توان اصطلاحات معنی دار را پیدا کرد.

به طور خلاصه ، در این مرحله ما به طور خودکار اصطلاحات (n-grams) را استخراج می کنیم و سپس معنادارترین موارد را برای ساخت مجموعه داده خود فیلتر می کنیم. ما مشاهده کردیم که N-Grams برای موضوعات مورد بحث در نشریات اهمیت بیشتری نسبت به unigrams دارد. از آنجا که هدف ما شناسایی اصطلاحات و مباحث تحقیق است ، Unigrams می تواند بسیار مبهم باشد. به عنوان مثال ، شبکه کلمه با توجه به اینکه می تواند مربوط به شبکه اجتماعی ، شبکه عصبی یا حتی شبکه تجاری باشد ، مبهم باشد. بنابراین ، ما مهمترین N-Grams 1638 را انتخاب کردیم ، این تعداد N-Grams در تمام دوره (2012-2012) در آزمایشات در نظر گرفته شده است ، همانطور که در بخش "آزمایش ها و نتایج" توضیح داده شده است.

تجزیه و تحلیل سری زمانی

با توجه به یک متغیر وابسته و مجموعه ای از موارد مستقل ، یک مدل رگرسیون می تواند به صورت تدوین شود

$ $ y تقریبی f سمت چپ (x ، beta راست) $ $

در جایی که متغیر وابسته y می تواند توسط متغیرهای مستقل x و پارامترهای مربوطه β برای یک عملکرد f تقریب یابد. برای تجزیه و تحلیل در این مرحله ، ما به تنوع فرکانس (TF-IDF) هر اصطلاح در یک دوره هدف (به عنوان مثال ، یک سال) علاقه مند هستیم. برای هر اصطلاح ، یک سری زمانی از تنوع فرکانس سالانه خود ساخته شده است.

سری زمانی می تواند انواع مختلفی از شکل و رفتار داشته باشد ، بنابراین ما از رگرسیون خطی و غیرخطی (خطی ، نمایی ، لگاریتمی ، قانون قدرت و چند جمله ای با 2 تا 5 درجه) استفاده کردیم. ما همه را برای هر ترم به کار گرفتیم و یکی را انتخاب کردیم که به بهترین وجه با استفاده از مربع های معمولی معمولی برای ارزیابی مناسب باشد. منحنی های رگرسیون برای چند اصطلاح در شکل 2 نشان داده شده است.

در نتیجه ، ما بهترین پیش بینی را در بین روشهای رگرسیون ذکر شده در بالا برای هر اصطلاح برای ساخت مجموعه داده ها برای تجزیه و تحلیل روند به دست آوردیم. این نتایج به عنوان پایه ای برای مقایسه با رویکرد پیشنهادی گرفته می شود.

تجزیه و تحلیل شبکه های اجتماعی

شبکه

این شبکه مدل شده از انتشارات مشترک (روابط همتایی) ساخته شده است که در پایگاه داده Lattes ثبت شده است. شبکه اجتماعی به عنوان یک نمودار متشکل از 5642 راس (نویسندگان) و 14،647 لبه (روابط هماهنگی) مدل سازی شد.

معیارها

معیارهای شبکه اجتماعی ویژگی های مختلفی را که می توان اندازه گیری کرد ، ضبط می کند. در این رویکرد ، برخی از معیارها برای تشکیل مجموعه متغیر مستقل انتخاب شده اند. انتخاب براساس فرضیات مربوط به پتانسیل هر متریک برای توضیح در مورد گسترش اطلاعات بود [14 ، 23]. به عنوان مثال ، یکی از فرضیات این است که یک گره در مؤلفه غول پیکر یک شبکه قادر به انتشار اطلاعات از طریق شبکه از یک گره است که در این مؤلفه نیست. معیارهای انتخاب شده عبارتند از: ترکیب غول پیکر ، کوتاهترین مسیر به مرکز مرکزی ، مرکزیت درجه ، مرکزیت eigenveector ، مرکزیت رتبه صفحه ، مرکزیت بین محوریت ، محوریت نزدیک بودن ، ضریب خوشه بندی ، هم ارزی ساختاری با مرکزی ترین گره و میانگین جامعه [10 ، 15، 17 ، 18 ، 24 ، 25]. این معیارها به شرح زیر توصیف شده است.

ترکیب غول پیکر: تعداد گره ها در جزء غول پیکر. کوتاهترین مسیر به مرکزی ترین گره: مقدار کوچکتر در میان کوتاهترین مسیرها به مرکزی ترین گره. مرکزیت درجه: میانگین درجه مرکزیت گره ها در جامعه. مرکزیت بردار ویژه: میانگین مرکزیت بردار ویژه گره های درون جامعه. مرکزیت رتبه صفحه: میانگین مرکزیت رتبه صفحه گره ها در جامعه. مرکزیت بین: میانگین مرکزیت بین گره ها در جامعه. مرکزیت نزدیکی: میانگین مرکزیت نزدیکی گره‌ها در جامعه. ضریب خوشه‌بندی: مقدار متوسط ضریب خوشه‌بندی از گره‌های درون جامعه. هم ارزی ساختاری با مرکزی ترین گره: مقدار متوسط معادل ساختاری از گره های درون جامعه. مرکزیت متوسط جامعه: میانگین مرکزیت همه گره های جامعه.

معیارهای مرکزیت می توانند اهمیت یک گره را در شبکه توضیح دهند، متریک کوتاه ترین مسیر نشان می دهد که یک گره چقدر از گره مرکزی فاصله دارد، در حالی که معادل ساختاری شباهت یک گره هدف به مرکزی ترین گره را کمیت می دهد. مهم ترین گره به عنوان مرجع استفاده شد. برای توجیه این انتخاب، جدول 1 تفاوت مرکزیت های Degree و Eigenvector را بین مرکزی ترین گره و ده گره برتر دیگر در شبکه نشان می دهد.

در این آزمایش، تعداد ویژگی های انتخاب شده را تغییر دادیم. ما مجموعه‌های داده‌ای را با نمونه‌هایی که توسط همه ویژگی‌ها (ویژگی‌ها) توصیف شده‌اند و مجموعه‌های داده با ویژگی‌های انتخاب‌شده توسط Relief و انتخاب دستی تولید کردیم، که اگر تحلیلگر درباره دامنه مشکل دانش داشته باشد، روش انتخاب مناسبی است. مهم ترین معیار در انتخاب ویژگی ها به صورت دستی، همبستگی متقابل آنها بود.

علاوه بر این، ما پارامترها را برای هر الگوریتم مدل پیش‌بینی تغییر دادیم که 16 تست برای ANN، 9 تست برای SVM و 15 تست برای جنگل چرخشی ایجاد می‌کند. برای ANN، پارامترهای مربوط به نرخ یادگیری، مدت حرکت، تعداد گره‌ها در لایه پنهان و تعداد لایه‌های پنهان را تغییر دادیم. برای SVM، ما چندین هسته (از جمله هسته تابع پایه شعاعی و هسته چندجمله‌ای) و مقادیر مختلف برای پارامتر C را آزمایش کردیم. در جنگل چرخشی، روش‌های درختی متفاوتی برای رویکرد مجموعه آزمایش شد، که پارامترهای خاص آنها را در هر مورد تغییر می‌داد.

در جدول 4 بهترین نتایج RAE به دست آمده از هر مدل ، با توجه به روش های مختلف انتخاب ویژگی ، برای دوره های مختلف ارائه شده است.

جدول 4 بهترین نتایج (کمترین RAE) از کلیه روشهای پیش بینی برای سه دوره و سه مجموعه ویژگی های مختلف

در مورد تکنیک ها ، بهترین اجراها ، همانطور که در جدول 4 نشان داده شده است ، با جنگل چرخش به دست آمد. یکی مشاهده می کند که جنگل چرخش بهترین عملکرد را برای دوره های کوتاه به دست آورد در حالی که SVM در دوره های طولانی تر بهتر عمل می کرد و در دوره های سال 1991-1911 بهتر از جنگل چرخش انجام می داد.

هنگام تجزیه و تحلیل دوره ها ، دوره 2002-2011 بهترین نتایج را با توجه به میانگین در بین تمام تکنیک ها ارائه داد ، با این حال ، بهترین نتیجه در دوره 2007-1011 (39. 28 ٪) بدست آمد. میانگین مقادیر RAE برای بهترین تکنیک ها عبارتند از: 43. 77 ٪ برای 2002-1011 ؛51. 57 ٪ برای 2007-2011 ؛و 69. 68 ٪ برای 2011-1911. در این مرحله تفاوت مهمی بین این دو مدل وجود دارد. در حالی که مدل سری زمانی نتایج بهتری را در دوره های طولانی تر به دست آورد (جدول 2) ، رویکرد پیشنهادی نتایج بهتری را در دوره های کوتاه تر ارائه می دهد. این را می توان با تغییر در پویایی شبکه توضیح داد. معیارهای حاصل از مدل سازی شبکه ها دوره های طولانی تر می توانند گمراه کننده باشند ، زیرا احتمالاً خصوصیات شبکه در طول زمان به طور قابل توجهی تغییر می کنند.

با مقایسه بهترین نتایج رویکرد پیشنهادی با مدل سری زمانی (جداول 2 و 4) ، به ترتیب برای کاهش خطای 45 ٪ ، 70 ٪ و 86 ٪ برای دوره های 1991-1011 ، 2002-1011 و 2007-2011 مشاهده می شود. در حالی که در مقایسه با روشهای نظارت شده اعمال شده در مجموعه داده های سری زمانی (جداول 2 و 4) یک افزایش خطای 21 ٪ برای دوره 1991–2011 و کاهش خطا 22 ٪ برای دوره های 2002-1011 و 2005-2011 مشاهده می شود.

بهترین نتیجه ، نسبت به دوره 2007-2011 با جنگل چرخش ، با مجموعه ویژگی های نشان داده شده در جدول 5 به دست آمده است. بهترین مجموعه پارامترها برای تکنیک جنگل چرخش جنگل تصادفی به عنوان روش مبتنی بر درخت با 50 درخت تصمیم گیری5 ویژگی برای انتخاب تصادفی و 7 به عنوان حداکثر عمق.

جدول 5 مجموعه ویژگی های مدل با بهترین نتایج (کمترین RAE)

جدول 6 نتایج 15 اصطلاح روند به دست آمده از هر دو مدل را مقایسه می کند. این اصطلاحات بر اساس تحلیل روند سری زمانی انتخاب شدند. در این جدول TF-IDF واقعی هر عبارت با مقدار پیش‌بینی‌شده از مدل پیش‌بینی سری زمانی و نتایج رویکرد پیشنهادی مقایسه شده است. تکنیک پیش‌بینی جنگل چرخشی برای دوره 2007-2011 بود (بهترین نتایج پیش‌بینی ارائه شده، همانطور که در جدول 4 نشان داده شده است).

جدول 6 مقایسه نتایج برای 15 روند اول مدل پیش بینی سری های زمانی در سال 2012

افزایش دقت نمایش داده شده در جدول 6 نمونه ای از بهبود تجزیه و تحلیل روند در هنگام گنجاندن ویژگی های شبکه اجتماعی است. نتایج تجربی نشان می دهد که خطای ایجاد شده توسط رویکرد پیشنهادی به طور متوسط تنها با 17 درصد از خطای تولید شده توسط مدل رگرسیون سری زمانی و 18 درصد از خطای تولید شده توسط روش های یادگیری نظارت شده سری زمانی که اجتماعی را در نظر نمی گیرند مطابقت دارد. ویژگی های شبکه

به منظور تأیید کیفیت رویکرد پیشنهادی برای شناسایی روندها در دوره‌های طولانی‌تر، آزمایش‌های اضافی برای تثبیت دوره آموزش مجموعه داده بین سال‌های 1991 و 2005 و تغییر دوره‌های پیش‌بینی بین سال‌های 2006 و 2011 برای آزمایش انجام شده است. تنها SVM و Rotation Forest در این آزمایش‌ها به کار گرفته شده‌اند، زیرا در آزمایش‌های قبلی بهترین نتایج را داشتند. جدول 7 نتایج را نشان می دهد. همانطور که انتظار می رفت، نرخ خطا با گذشت زمان افزایش می یابد. با این حال، خطاها برای دوره های طولانی تر به طور چشمگیری افزایش نمی یابد. مقایسه این نتایج با نتایج به‌دست‌آمده از روش‌های رگرسیون سری زمانی ارائه‌شده در جدول 2، نشان می‌دهد که میزان خطا همچنان پایین‌تر است.

جدول 7 RAE برای آزمون های کوتاه مدت، میان مدت و بلند مدت برای مدل های آموزش دیده در دوره بین سال های 1991 و 2005

نتیجه

رویکردهایی که فقط رفتار تاریخی شیء مورد تجزیه و تحلیل را در نظر می گیرند ، برای پیش بینی روند به طور گسترده ای استفاده شده اند. با این حال ، محتوای ایجاد شده توسط افراد به وضوح تحت تأثیر ارتباطات آنها است. چگونگی گسترش اطلاعات عامل مهمی است که می تواند در پیش بینی در نظر گرفته شود. با هدف پر کردن این شکاف ، ما یک رویکرد جدید برای تجزیه و تحلیل روند ارائه شده از اطلاعات شبکه اجتماعی را به یک مدل تجزیه و تحلیل روند مبتنی بر محتوا ارائه دادیم. رویکرد پیشنهادی نتایج بهتری نسبت به مدلهای مبتنی بر سری استاندارد به دست آورد. علاوه بر تکنیک های پیش بینی ساده ، مانند رگرسیون خطی ، ما از تکنیک های قوی تری استفاده کردیم که منجر به مدل های دقیق تر می شود. همانطور که تصور می کردیم ، این یافته ها مسئله پیش بینی روند را روشن می کند. محتوای اطلاعات و ویژگی های ساختار اجتماعی آنها می تواند برای بهبود توضیح رفتار زمانی اطلاعات همراه باشد.

این اثر مفهومی را که هنوز کمی مورد مطالعه قرار گرفته است ، مورد بررسی قرار داد و بنابراین ، برخی از کاستی ها همچنان مورد بررسی قرار می گیرد. پویایی شبکه اجتماعی یکی از آنهاست. ما با یک پنجره زمانی ثابت به مدل سازی شبکه اجتماعی کار کردیم. با این حال ، برش فاصله زمانی احتمالاً با گرفتن خصوصیات گذرا در طول زمان در ساختارهای اجتماعی ، مدل های پیش بینی را بهبود می بخشد. با گروه بندی اصطلاحات استخراج شده توسط مباحث ، پیشرفت دیگری حاصل می شود ، که می تواند بیشتر از تجزیه و تحلیل هر اصطلاح به تنهایی باشد.

در نتیجه ، ما فهمیدیم که نگاه کردن به ساختار اجتماعی منابع داده در کنار داده های اصلی تجزیه و تحلیل می تواند به درک بهتر رفتار زمانی اطلاعات کمک کند.

نهادهای پایان

منابع

  1. Abe H ، Tsumoto S (2009) ارزیابی روشی برای تشخیص روند زمانی عبارات در اسناد تحقیقاتی در: هشتمین کنفرانس بین المللی IEEE در مورد انفورماتیک شناختی ، 378-383 .. IEEE. doi: 10. 1109/ICSMC. 2009. 5345958.
  2. Altshuler Y ، Pan W ، Pentland AS (2012) پیش بینی روند با استفاده از مدلهای انتشار اجتماعی در: کنفرانس بین المللی محاسبات اجتماعی ، مدل سازی رفتاری-فرهنگی و پیش بینی ، 97-104 .. اسپرینگر ، برلین هایدلبرگ. doi: 10. 1007/978-3-642-29047-3_12.
  3. Bakshy E ، Rosenn I ، Marlow C ، Adamic L (2012) نقش شبکه های اجتماعی در انتشار اطلاعات در: مجموعه مقالات بیست و یکمین کنفرانس بین المللی در شبکه جهانی ، 519-528 .. ACM. doi: 10. 1145/2187836. 2187907.
  4. Cimenler O ، Reeves KA ، Skvoretz J (2014) تجزیه و تحلیل رگرسیون معیارهای شبکه اجتماعی محققان در مورد عملکرد استناد به آنها در یک دانشکده مهندسی. J Informetrics 8 (3): 667-682. doi: 10. 1016/j. joi. 2014. 06. 004.
  5. Clauset A ، Newman ME ، Moore C (2004) یافتن ساختار جامعه در شبکه های بسیار بزرگ. بررسی فیزیکی E 70 (6): 066 111. ArticleGoogle Scholar
  6. Digiampietri LA ، Alves CM ، Trucolo CC ، Oliveira RA (2014) Análise da rede dos doutores que atuam em computação no brasil in: csbc 2014 - برزنم ، 33-44.
  7. Digiampietri LA ، Mena-Chalco JP ، Melo Pov ، Malheiros AP ، Meira Dno ، Franco LF ، Oliveira LB (2014) Brax-Ray: اشعه ایکس برنامه های فارغ التحصیل علوم کامپیوتر برزیل. PLOS-One9 (4): E94541. Articlegoogle Scholar
  8. Glanzel W ، Schubert A (2004) تجزیه و تحلیل شبکه های علمی از طریق همکاری در: کتابچه راهنمای تحقیقات کمی علوم و فناوری ، 257-276 .. ناشران دانشگاهی Kluwer. doi: 10. 1. 1. 86. 4083.
  9. همیلتون JD (1994) تجزیه و تحلیل سری زمانی ، جلد 2. انتشارات دانشگاه پرینستون ، پرینستون. ISBN: 9780691042893.
  10. Lemieux V ، Ouimet M (2008) Análise Estrutural Das Redes Sociais. PIAGET INSTUTO.
  11. Moed HF ، Glänzel W ، Schmoch U (2004) معرفی ویراستاران در: کتابچه راهنمای تحقیقات کمی علم و فناوری ، 1-15 .. اسپرینگر هلند.
  12. Nakagawa H ، Mori T (2002) یک روش استخراج اصطلاح اتوماتیک ساده اما قدرتاستراسبورگ. doi: 10. 3115/1118771. 1118778.
  13. Pan W ، Aharony N ، Pentland A (2011) شبکه اجتماعی کامپوزیت برای پیش بینی نصب برنامه های تلفن همراه در: AAAI. Arxiv: 1106. 0359.
  14. Pandit S ، Yang Y ، Chawla NV (2012) حداکثر رساندن اطلاعات از طریق ساختارهای نفوذ در شبکه های اجتماعی در: 2012 IEEE دوازدهمین کنفرانس بین المللی کارگاه های داده کاوی ، 258-265 .. IEEE. doi: 10. 1109/icdmw. 2012. 140.
  15. Poblacion D ، Mugnaini R ، Ramos L (2009) Redes Sociais E Colaborativas EM Informação Científica ، چاپ اول. Angellara editoras ، سائوپائولو.
  16. Pourkazemi M ، Keyvanpour M (2013) نظرسنجی در مورد روشهای تشخیص جامعه بر اساس ماهیت شبکه های اجتماعی. ICCKE 2013 5 (1): 114–120. doi: 10. 1109/iccke. 2013. 6682855. Articlegoogle Scholar
  17. PRELL C (2012) تاریخ تحلیل شبکه های اجتماعی ، تئوری و روش شناسی ، لس آنجلس لندن.
  18. Scott J (2009) تجزیه و تحلیل شبکه های اجتماعی: یک کتابچه راهنما ، چاپ 2. حکیم. doi: 10. 1109/iccke. 2013. 6682855.
  19. Singh S ، Mishra N ، Sharma S (2013) بررسی تکنیک های مختلف برای تعیین کاربران تأثیرگذار در شبکه های اجتماعی در: روندهای نوظهور در محاسبات ، ارتباطات و فناوری نانو (ICE-CCN) ، کنفرانس بین المللی 2013 ، 398-403. doi: 10. 1109/ICE-CCN. 2013. 6528531.
  20. Teixeira LA ، de Oliveira Ali (2009) پیش بینی روندهای سهام از طریق تجزیه و تحلیل فنی و نزدیکترین طبقه بندی همسایه در: کنفرانس بین المللی IEEE 2009 ، مرد و سایبرنتیک ، 3094-3099 .. IEEE. doi: 10. 1109/ICSMC. 2009. 5345944.
  21. Trucolo CC ، Digiampietri LA (2014) تجزیه و تحلیل روند تولید علمی برزیل در علوم کامپیوتر. FSMA 14: 2-9. گوگل دانشکده
  22. Trucolo CC ، Digiampietri LA (2014) Uma Revisão Sistematica Acerca Das Técnicas de Identificaraeo e análise de tendênciaś in: x simpósio brasileiro de sistemas de informação (sbsi 2014) ، 639-650 ..
  23. Wang D ، Wen Z ، Tong H ، Lin CY ، Song C ، Barabási AL (2011) اطلاعات گسترش یافته در متن در: مجموعه مقالات بیستمین کنفرانس بین المللی وب در سراسر جهان ، www '11. ، 735-744 .. ACM ، جدیدیورک. doi: 10. 1145/1963405. 1963508http: //doi. acm. org/10. 1145/1963405. 1963508.
  24. Wasserman S ، Faust K (2009) تجزیه و تحلیل شبکه های اجتماعی: روش ها و برنامه ها. نوزدهم وی. تجزیه و تحلیل شبکه های اجتماعی: روش ها و برنامه ها.
  25. Wasserman S ، Galaskiewicz J (1994) پیشرفت در تحقیقات تجزیه و تحلیل شبکه های اجتماعی در علوم اجتماعی و رفتاری. حکیم. doi: 10. 4135/9781452243528.

سپاسگزاریها

این کار تا حدی توسط FAPESP ، CAPES و CNPQ تأمین شد.

کمک های نویسندگان

CCT رویکرد ارائه شده در این مقاله را توسعه داده ، آزمایش و تأیید کرد. LAD مشاور CAIO بود و در مشخصات رویکرد و طراحی آزمایشات مشارکت داشت. هردو پدیدآورنده نسخه دست نویس را خوانده و تایید کرده اند.

منافع رقابتی

نویسندگان اعلام می کنند که هیچ منافع رقابتی ندارند.

یادداشت ناشر

طبیعت Springer با توجه به ادعاهای قضایی در نقشه های منتشر شده و وابستگی های نهادی ، خنثی است.

اطلاعات نویسنده

نویسندگان و وابستگی ها

  1. دانشگاه سائوپائولو ، سائوپائولو ، برزیل Caio Cesar Trucolo و Luciano Antonio Digiampietri
  1. Caio Cesar Trucolo

همچنین می توانید این نویسنده را در PubMed Google Scholar جستجو کنید همچنین می توانید این نویسنده را در PubMed Google Scholar جستجو کنید

نویسنده متناظر

حقوق و مجوزها

دسترسی آزاد این مقاله با توجه به مجوز بین المللی Creative Commons Attribution 4. 0 (http://creativeecommons. org/licenses/by/4. 0/) توزیع می شود ، که امکان استفاده ، توزیع و بازتولید نامحدود را در هر رسانه ای فراهم می کند ، مشروط بر اینکه به شما بدهد ، مشروط بر اینکه به شما ارائه شود ، مشروط بر اینکه به شما ارائه شود ، مشروط بر اینکه به شما ارائه شود ، به شرط آنکه به شما ارائه شود ، به شرط آنکه به شما ارائه شود ، به شرط آنکه به شما امکان پذیر باشد ، توزیع و تولید مثل و بازتولیداعتبار مناسب برای نویسنده (های) اصلی و منبع ، پیوندی به مجوز Creative Commons ارائه می دهد و نشان می دهد که آیا تغییراتی ایجاد شده است.

در مورد این مقاله

این مقاله را ذکر کنید

Trucolo ، C. C. ، Digiampietri ، L. A. بهبود تجزیه و تحلیل روند با استفاده از ویژگی های شبکه های اجتماعی. J Braz Comput Soc 23 ، 8 (2017). https://doi. org/10. 1186/S13173-017-0056-9

  • دریافت شده: 26 ژوئیه 2016
  • پذیرفته شده: 19 مه 2017
  • منتشر شده: 07 ژوئن 2017
  • doi: https://doi. org/10. 1186/S13173-017-0056-9

این مقاله را به اشتراک بگذارید

هرکسی که لینک زیر را با آن به اشتراک بگذارید قادر به خواندن این محتوا خواهد بود:

لینک اشتراکی دریافت کنید

با عرض پوزش ، یک لینک قابل اشتراک در حال حاضر برای این مقاله در دسترس نیست.

کپی به کلیپ بورد

ارائه شده توسط SPRINGER NATURE SHAREDIT SICTIONATION CONTENT

کلید واژه ها

  • تحلیل روند
  • شبکه اجتماعی
حساب اسلامي...
ما را در سایت حساب اسلامي دنبال می کنید

برچسب : نویسنده : کامران فیوضات بازدید : 58 تاريخ : چهارشنبه 15 شهريور 1402 ساعت: 7:59