Topic modeling with latent Dirichlet allocation for cancer disease posts
Dosyalar
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
In social media platforms, users share their experiences about the events they have experienced. People talk about a recent event, a city they have just seen, a book they read, etc. They post their experiences with other people about the same specific issues. One of the topics that users often talk about is health problems and sharing their experiences on this subject. Individuals with health problems can share their illnesses, treatments and results, and the experiences they have gained at each stage in social media platforms. These shares are important for other patients, both for informative and for morale / motivation in combating the disease. Manual analysis of the posts by human beings becomes impossible due to reasons such as the high number of posts, the variety of diseases and the amount of data. In this study, posts about cancer disease were collected on the Reddit social platform and these data were studied. The main topics discussed with the " Latent Dirichlet Allocation (LDA)" algorithm, one of the artificial intelligence-based topic modeling algorithms, were found through these posts. The relationship of the subject headings with the spoken subject was examined and content analysis was made. It is aimed to determine the most talked about contents among the posts about cancer disease. In addition, the relationship between the subjects was examined using the tSNE technique. It was observed that the words in the topics obtained as a result of modeling with the LDA algorithm were compatible in the coherence test.
Sosyal medya ortamlarında, kullanıcılar yaşadıkları olaylar ile ilgili edindikleri tecrübeleri paylaşmaktadır. Kişiler başlarından geçen bir olayı, yeni gördükleri bir şehri, okudukları kitabı vb. paylaşarak bu konular hakkında diğer kişilere deneyimlerini aktarmaktadır. Kullanıcıların konuştuğu konulardan biri de sağlık problemleri ve bu konudaki deneyimlerin paylaşılmasıdır. Sağlık problemi yaşayan bazı bireyler, geçirdikleri hastalıkları, gördüğü tedavileri ve sonuçlarını, her bir evresinde kazandıkları tecrübeleri sosyal ortamlarda yazarak paylaşabilmektedir. Bu paylaşımlar gerek bilgilendirici gerekse hastalıkla mücadelede moral/motivasyon için diğer hastalar açısından önem arz etmektedir. Paylaşım sayısının fazla olması, hastalıkların çeşitliği ve veri miktarının büyüklüğü nedeniyle insan tarafından manuel olarak yorumlanması imkânsız hale gelmektedir. Bu çalışmada, Reddit sosyal platformu üzerinden, kanser hastalığı ile ilgili paylaşımlar toplanarak bu veriler üzerinde çalışılmıştır. Bu paylaşımlar üzerinden yapay zekâ tabanlı konu modelleme algoritmalarından “Gizli Dirichlet Ayrımı (GDA)” algoritması ile konuşulan başlıca konu başlıkları bulunmuştur. Konu başlıklarının konuşulan konu ile ilişkisi incelenmiş ve içerik analizi yapılmıştır. Kanser hastalığı ile ilgili paylaşımlar içerisinde en fazla konuşulan içeriklerin belirlenmesi hedeflenmiştir. Ayrıca t-SNE tekniği kullanılarak konuların birbiri arasındaki ilişkisi incelenmiştir. GDA algoritması ile modelleme sonucunda elde edilen konu başlıklarında bulunan kelimelerin yapılan tutarlılık testinde uyumlu olduğu görülmüştür.












