SlideShare a Scribd company logo
1 of 63
Download to read offline
NNLLPPNatural Language Processing
‫حروف‬NLP‫چون‬ ‫تى‬‫ت‬‫کلما‬ ‫تف‬‫ف‬‫مخ‬Neuro-Linguistic Programming‫که‬ ‫تت‬‫س‬‫ه‬ ‫تز‬‫ی‬‫ن‬
‫معنای‬ ‫ه‬‫ت‬‫ب‬-‫تى‬‫م‬‫کل‬ ‫تبى‬‫ص‬‫ع‬ ‫ریزی‬ ‫ه‬‫ت‬‫م‬‫برنا‬.‫قدرت‬ ‫واسطه‬ ‫ه‬‫ت‬‫ب‬ ‫ی‬‫ت‬‫س‬‫ک‬ ‫تر‬‫ه‬ ‫ه‬‫ت‬‫ک‬ ‫تت‬‫س‬‫ه‬ ‫ن‬‫ت‬‫ی‬‫ا‬ ‫تى‬‫ی‬‫ابتدا‬ ‫معناى‬ ‫تتند‬‫س‬‫ه‬
!‫سوال‬ ‫ن‬‫ت‬‫ی‬‫ا‬ ‫حول‬ ‫و‬ ‫تد‬‫ن‬‫ک‬ ‫‌ریزی‬‫ه‬‫برنام‬ ‫را‬ ‫دیگرى‬ ‫ا‬‫ت‬‫ی‬ ‫خود‬ ‫ن‬‫ت‬‫ه‬‫ذ‬ ‫و‬ ‫بگذارد‬ ‫تر‬‫ی‬‫تأث‬ ‌‫ی‬‫تب‬‫ص‬‫ع‬ ‫تیستم‬‫س‬ ‫بر‬ ‫تد‬‫ن‬‫‌توا‬‫ی‬‫م‬ ‫کلم‬
: ‫ه‬‫کتتتتتتتتتتتتتتتتتتتتتتتت‬ ‫گردد‬ ‫ی‬‫متتتتتتتتتتتتتتتتتتتتتتتت‬ ‫کلیدی‬
‫آیا‬‫موفقیت‬‫زندگى‬ ‫در‬‫شانسى‬‫یا‬ ‫است؟‬‫ت‬‫ل‬‫فرمو‬ ‫و‬ ‫قاعده‬‫ت‬‫ل‬‫فرمو‬ ‫و‬ ‫قاعده‬...‫دارد؟‬
‫علم‬
‫موفقیت‬
‫و‬
‫تغییرات‬!
‫ی‬‫طبیعت‬ ‫‌های‬‫ن‬‫زبا‬ ‫پردازش‬Natural Language Processing‫حوزه‬ ‫‌های‬‫ه‬‫زیرشاخ‬ ‫از‬ ‫یکی‬
) (،‫‌پردازد‬‫ی‬‫م‬ ‫انسانی‬ ‫تی‬‫ع‬‫طبی‬ ‫‌های‬‫ن‬‫زبا‬ ‫و‬ ‫تر‬‫ت‬‫کامپیو‬ ‫ن‬‫ت‬‫ی‬‫ب‬ ‫ل‬‫ت‬‫م‬‫تعا‬ ‫ته‬‫ب‬ ‫ته‬‫ک‬ ‫ت‬‫ت‬‫س‬‫ه‬ ‫تنوعی‬‫ص‬‫م‬ ‫هوش‬ ‫و‬ ‫ته‬‫ن‬‫رایا‬ ‫علوم‬nlp
‫نوشتاری‬ ‫زبان‬ ‫و‬ ‫گفتاری‬ ‫زبان‬ ‫پردازش‬ ‫برای‬ ‫تر‬‫ت‬‫کامپیو‬ ‫از‬ ‫تتفاده‬‫س‬‫ا‬‫نوشتاری‬ ‫زبان‬ ‫و‬ ‫گفتاری‬ ‫زبان‬ ‫پردازش‬ ‫برای‬ ‫تر‬‫ت‬‫کامپیو‬ ‫از‬ ‫تتفاده‬‫س‬‫ا‬: .‫عمده‬ ‫و‬ ‫اصلی‬ ‫ش‬‫چالت‬ ‫ت‬‫است‬‫زبان‬ ‫درک‬‫زبان‬ ‫درک‬
‫ی‬‫ت‬‫ع‬‫طبی‬‫ی‬‫ت‬‫ع‬‫طبی‬‫و‬‫درک‬ ‫تد‬‫ن‬‫فرای‬ ‫کردن‬ ‫ی‬‫ت‬‫ن‬‫ماشی‬‫درک‬ ‫تد‬‫ن‬‫فرای‬ ‫کردن‬ ‫ی‬‫ت‬‫ن‬‫ماشی‬‫و‬‫‌شده‬‫ن‬‫بیا‬ ‫م‬‫ت‬‫ی‬‫مفاه‬ ‫تت‬‫ش‬‫بردا‬‫‌شده‬‫ن‬‫بیا‬ ‫م‬‫ت‬‫ی‬‫مفاه‬ ‫تت‬‫ش‬‫بردا‬‫ت‬‫ت‬‫س‬‫ا‬‫به‬ ‫توان‬ ‫تی‬‫م‬ ‫ته‬‫ن‬‫روزا‬ ‫های‬ ‫کاربرد‬ ‫از‬ ‫و‬
) | (ِ‫اطلعاتی‬ ‫‌های‬‫ک‬‫بان‬ ‫و‬ ‫وب‬ ‫تفحات‬‫ص‬ ‫تتوجو‬‫س‬‫ج‬ ، ‫ترگمان‬ ‫لیت‬‫ت‬‫س‬‫ترن‬ ‫ل‬‫ت‬‫گ‬‫گو‬ ‫و‬ ‫گ‬‫ت‬‫ن‬‫بی‬ ‫تر‬‫گ‬‫دی‬ ‫زبان‬ ‫ته‬‫ب‬ ‫تی‬‫ن‬‫زبا‬ ‫از‬ ‫ته‬‫م‬‫ترج‬
‫نوشتاری‬( ) | (‫و‬ ‫اسیستنت‬ ‫ل‬‫ت‬‫گ‬‫گو‬ ،‫ل‬‫ت‬‫پ‬‫ا‬ ‫تیری‬‫س‬ ،‫زون‬‫ت‬‫ا‬‫آم‬ ‫ا‬‫ت‬‫س‬‫الک‬ ‫مجازی‬ ‫های‬ ‫تتیار‬‫س‬‫د‬ ‫‌جو‬‫ی‬‫ت‬‫س‬‫پار‬ ‫گ‬‫ت‬‫ن‬‫بی‬ ،‫ل‬‫ت‬‫گ‬‫گو‬ ‫ترچ‬‫س‬
.)‫‌بی‬‫س‬‫بیک‬ ‫سامسونگ‬
‫و‬ ‫تجزیه‬ ‫مورد‬ ‫را‬ ‫زبان‬ ‫داریم‬ ‫قصد‬ ‫سطح‬ ‫چهار‬ ‫در‬ ‫ما‬
: ‫دهیم‬ ‫قرار‬ ‫تحلیل‬
Word, Syntax, Semantic, Discourse
‫آن‬ ‫به‬ ‫طبیعی‬ ‫های‬ ‫زبان‬ ‫پردازش‬ ‫در‬ ‫که‬ ‫هایی‬ ‫مهارت‬
: ‫دارید‬ ‫احتیاج‬
‫از‬ ‫درکی‬‫ها‬ ‫ماتریس‬ ‫و‬ ‫وکتور‬ ،‫خطی‬ ‫جبر‬
‫احتمالت‬ ‫و‬ ‫آمار‬ ‫مفهموم‬
‫‌گرا‬‫ئ‬‫ش‬ ‫زبان‬ ‫یک‬(‫‌شارپ‬‫ی‬‫س‬|‫پایتون‬|). . .
NNaïveaïve BBayesayes CClassifers,lassifers, LLanguageanguage
MModeling,odeling, SStatisticaltatistical PParsing,arsing,
SStemming,temming, WSDWSD (word sense(word sense
disambiguity)disambiguity),, GGrammarrammar IInduction,nduction,
IInformationnformation EExtraction,xtraction, SSpellingpelling
CCorrection,orrection, SSentimententiment AAnalysisnalysis
‫دهه‬ ‫ته‬‫ب‬ ‫تی‬‫ع‬‫طبی‬ ‫زبان‬ ‫پردازش‬ ‫ته‬‫چ‬‫تاریخ‬50‫و‬
‫تگ‬‫ن‬‫توری‬ ‫تن‬‫ل‬‫آ‬‫معروف‬ ‫مقاله‬ ‫در‬ ‫ته‬‫ک‬ ‫گرده‬ ‫تی‬‫م‬ ‫بر‬
‫به‬ ‫امروزه‬ ‫کته‬ ‫تورینتگ‬ ‫ش‬‫آزمایت‬ ‫درباره‬ ،‫خود‬
،‫‌شود‬‫ی‬‫م‬ ‫شناخته‬ ‫هوشمندی‬ ‫ملک‬ ‫عنوان‬
.‫ال‬‫ت‬‫س‬ ‫همچنیتن‬ ‫بود‬ ‫کرده‬ ‫عوان‬۱۹۵۷‫کتاب‬
‫نحوی‬ ‫اختارهای‬‫ستتت‬‫ر‬‫اثتتت‬‫چامسکی‬ ‫نوام‬
.‫شد‬ ‫ارائه‬ ‫آمریکایی‬ ‫جوان‬ ‫‌شناس‬‫ن‬‫زبا‬
‫‌های‬‫ل‬‫سا‬ ‫تن‬‫ی‬‫ب‬۱۹۲۳‫و‬۱۹۵۷‫تی‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫هدف‬ ،» «‫کشف‬ ‫روندهای‬ ‫تل‬‫ی‬‫تکم‬» «‫کشف‬ ‫روندهای‬ ‫تل‬‫ی‬‫تکم‬
‫تا‬ ‫ازد‬‫ت‬‫س‬ ‫تی‬‫م‬ ‫قادر‬ ‫را‬ ‫‌شناس‬‫ن‬‫زبا‬ ‫ته‬‫ک‬ ‫تول‬‫ص‬‫ا‬ ‫از‬ ‫‌ای‬‫ه‬‫مجموع‬ ‫تن‬‫ت‬‫یاف‬ ‫تی‬‫ن‬‫یع‬ ‫بود؛‬
‫گفته‬ ‫زبان‬ ‫تل‬‫ه‬‫ا‬ ‫‌گوی‬‫ن‬‫تخ‬‫س‬ ‫تک‬‫م‬‫ک‬ ‫ته‬‫ب‬ ‫ته‬‫ک‬ ‫اطلعات‬ ‫‌ای‬‫ه‬‫تود‬ ‫از‬ ‫را‬ ‫تی‬‫ن‬‫زبا‬ ‫تتور‬‫س‬‫د‬
‫توصیفی‬ ‫ته‬‫ب‬ ‫‌توان‬‫ی‬‫م‬ ‫تت‬‫س‬‫ا‬ ‫تق‬‫ی‬‫طر‬ ‫تن‬‫ی‬‫ا‬ ‫ته‬‫ب‬ ‫و‬ ‫کنتد‬ ‫تتخراج‬‫س‬‫ا‬ ‫و‬ ‫تف‬‫ش‬‫ک‬ ،‫شده‬
.‫یافت‬ ‫تت‬‫س‬‫د‬ ‫زبان‬ ‫از‬ ‫کامل‬ ‫و‬ ‫تی‬‫ن‬‫عی‬‫چامسکی‬‫چامسکی‬‫هدف‬ ‫این‬ ‫ته‬‫ک‬‌‫ن‬‫ای‬ ‫به‬ ‫اعتقاد‬ ‫با‬
.‫‌کند‬‫ی‬‫م‬ ‫وارد‬ ‫آن‬ ‫بر‬ ‫را‬ ‫نقدهایتی‬ ‫ش‬‫کتابت‬ ‫در‬ ،‫استت‬ ‫محدود‬ ‫و‬ ‫‌گرایانته‬‫ن‬‫آرما‬
‫ته‬‫ک‬ ‫تل‬‫ی‬‫دل‬ ‫تن‬‫ی‬‫ا‬ ‫ته‬‫ب‬ ‫ته‬‫ن‬‫‌گرایا‬‫ن‬‫آرما‬‫برای‬ ‫‌ناپذیر‬‫ه‬‫خدش‬ ‫قواعدی‬ ‫م‬‫ت‬‫ی‬‫بتوان‬ ‫ندارد‬ ‫امکان‬‫برای‬ ‫‌ناپذیر‬‫ه‬‫خدش‬ ‫قواعدی‬ ‫م‬‫ت‬‫ی‬‫بتوان‬ ‫ندارد‬ ‫امکان‬
‫کنیم‬ ‫تع‬‫ض‬‫و‬ ‫اطلعات‬ ‫‌ای‬‫ه‬‫تود‬ ‫از‬ ‫تل‬‫م‬‫کا‬ ‫تتور‬‫س‬‫د‬ ‫تک‬‫ی‬ ‫تتخراج‬‫س‬‫ا‬‫کنیم‬ ‫تع‬‫ض‬‫و‬ ‫اطلعات‬ ‫‌ای‬‫ه‬‫تود‬ ‫از‬ ‫تل‬‫م‬‫کا‬ ‫تتور‬‫س‬‫د‬ ‫تک‬‫ی‬ ‫تتخراج‬‫س‬‫ا‬.‫این‬ ‫تت‬‫ی‬‫محدود‬
‫آنچه‬ ‫تد؛‬‫ن‬‫نبود‬ ‫برخوردار‬ ‫تی‬‫ی‬‫‌گو‬‫ش‬‫پی‬ ‫قدرت‬ ‫از‬ ‫ته‬‫ک‬ ‫تت‬‫س‬‫ا‬ ‫تل‬‫ی‬‫دل‬ ‫تن‬‫ی‬‫ا‬ ‫ته‬‫ب‬ ‫تتورها‬‫س‬‫د‬
‫پیشگویی‬ ‫تد‬‫ه‬‫د‬ ‫رخ‬ ‫بود‬ ‫تن‬‫ک‬‫مم‬ ‫را‬ ‫ته‬‫چ‬‫آن‬ ‫و‬ ‫تد‬‫ن‬‫‌کرد‬‫ی‬‫م‬ ‫‌بندی‬‫ه‬‫تت‬‫س‬‫د‬ ‫بود‬ ‫داده‬ ‫رخ‬ ‫را‬
.‫‌ای‬‫ه‬‫فرضی‬ ‫یا‬ ‫نظریته‬ ‫‌عنوان‬‫ه‬‫ب‬ ‫بایتد‬ ‫دستتور‬ ‫بود‬ ‫معتقتد‬ ‫کی‬‫چامست‬ ‫‌کردند‬‫ی‬‫نم‬
.ٔ‫نظریه‬ ‫کته‬ ‫بود‬ ‫گونته‬ ‫ایتن‬ ‫و‬ ‫کند‬ ‫بیان‬ ‫را‬ ‫زبان‬ ‫کارکرد‬ ‫چگونگتی‬ ‫کته‬ ‫باشتد‬
‫خود‬ ‫معروف‬‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬‫د‬‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬‫د‬.‫د‬ ‫کرد‬ ‫بیان‬ ‫را‬‫رویکردهای‬ ‫از‬ ‫یکی‬ ‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬‫رویکردهای‬ ‫از‬ ‫یکی‬ ‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬
‫از‬ ‫توصیف‬ ‫شیوه‬ ‫و‬ ‫زبان‬ ‫تتور‬‫س‬‫د‬ ‫از‬ ‫‌ای‬‫ه‬‫گون‬ ‫شامل‬ ‫ته‬‫ک‬ ‫است‬ ‫زبان‬ ‫نحو‬ ‫تی‬‫س‬‫برر‬‫از‬ ‫توصیف‬ ‫شیوه‬ ‫و‬ ‫زبان‬ ‫تتور‬‫س‬‫د‬ ‫از‬ ‫‌ای‬‫ه‬‫گون‬ ‫شامل‬ ‫ته‬‫ک‬ ‫است‬ ‫زبان‬ ‫نحو‬ ‫تی‬‫س‬‫برر‬
. ‫باشتد‬ ‫متی‬ ‫زبان‬ ‫اختار‬‫ت‬‫س‬. ‫باشتد‬ ‫متی‬ ‫زبان‬ ‫اختار‬‫ت‬‫س‬‫منبع‬ ‫کته‬ ‫استت‬ ‫آتن‬ ‫بر‬ ‫فرض‬ ،‫رویکرد‬ ‫ایتن‬ ‫در‬‫منبع‬ ‫کته‬ ‫استت‬ ‫آتن‬ ‫بر‬ ‫فرض‬ ،‫رویکرد‬ ‫ایتن‬ ‫در‬
‫برای‬ ‫ذاتی‬ ‫ازوکارهای‬‫ت‬‫س‬ ‫دارای‬ ‫ان‬‫ت‬‫انس‬ ‫مغتز‬ ‫و‬ ‫استت‬ ‫ژنتیکتی‬ ،‫زبان‬ ‫یادگیری‬‫برای‬ ‫ذاتی‬ ‫ازوکارهای‬‫ت‬‫س‬ ‫دارای‬ ‫ان‬‫ت‬‫انس‬ ‫مغتز‬ ‫و‬ ‫استت‬ ‫ژنتیکتی‬ ،‫زبان‬ ‫یادگیری‬
.‫است‬ ‫زبان‬ ‫یادگیری‬.‫است‬ ‫زبان‬ ‫یادگیری‬
‫های‬ ‫چالش‬ ‫از‬ ‫بعضی‬nlp:‫هستند‬ ‫درگیر‬ ‫آن‬ ‫با‬ ‫رایانه‬ ‫علوم‬ ‫دانشمندان‬ ‫که‬
:‫شده‬ ‫حل‬ ‫زیادی‬ ‫مقدار‬ ‫که‬ ‫هایی‬ ‫چالش‬
Spam detection
Let’s go to Agra
Let’s Buy V1AGRA
✓!
✗...
Part-of-speech (POS) tagging
ADJ ADJ NOUN VERB ADV
Colorless green ideas sleep furiously
Named entity recognition (NER)
PERSON ORG
LOC
‫بزرگ‬ ‫شهر‬ ‫سومین‬
‫پرادش‬ ‫اوتار‬ ‫ایالت‬ ‫در‬
‫هندوستان‬ ‫کشور‬ ‫در‬
!‫شده‬ ‫واقع‬ ‫آن‬ ‫در‬ ‫‌محل‬‫ج‬‫تا‬ ‫که‬
Coreference resolution
Akbar told Asqar he shouldn’t run
again
: ‫داشتیم‬ ‫خوبی‬ ‫پیشرفت‬ ‫حال‬ ‫به‬ ‫تا‬ ‫که‬ ‫هایی‬ ‫چالش‬
Word Sense Disambiguation(WSD)
I need new batteries for my
mouse
?
positive
negative
But the
waiter
ignored us
for like 20
Sentiment
Analysis
Best roast
chicken in
San
Francisco
!
Parsing
I can see cooler from the window
Machine translation (MT)
第 25 届上海国际电影节开幕
In 25th
of the tir I have a NLP
presentation
Information extraction (IE)
You’re invited to our LUG
session, doshanbe tir 25 at 16:30
LUG
Tir
25th
: ‫سخته‬ ‫خیلی‬ ‫که‬ ‫هنوز‬ ‫هایی‬ ‫چالش‬ ‫و‬
Question answering (QA)
Q. How effective is ibuprofen in
reducing
fever in patients with acute febrile
illness
?
XYZ acquired ABC yesterday
ABC has been taken over by
XYZ
Paraphrase
The Dow Jones is up
The S&P 500 jumped
Housing (Dollar) prices
Economy
is good
Summarizatio
n
‫چگونه‬ibuprofen‫بیماری‬ ‫به‬ ‫مبتل‬ ‫بیماران‬ ‫تب‬ ‫کاهش‬ ‫در‬
‫است؟‬ ‫مؤثر‬ ‫حاد‬ ‫تب‬
Where is the
separation
playing in
Shiraz??
Saadi cinema at
7:30Do you want a??
DialogDialog
،‫سخته‬ ‫طبیعی‬ ‫‌های‬‫ن‬‫زبا‬ ‫پردازش‬. . . ‫چرا‬
At last, a computer that understands
you like your mother
It understands you as well as your
mother, understands you
It understands (that) you like your
mother
It understands you as well as it
understands your mother
1
2
3
. . . ‫ابهام‬. . . ‫ابهام‬
Firm XYZ is a full service advertising agency
specializing in direct and in-teractive
marketing. Located in Bigtown CA, Firm XYZ is
looking for an As-sistant Account Manager to
help manage and coordinate interactive marketing
initiatives for a marquee automative account.
Experience in online marketing, automative
and/or the advertising field is a plus.
Assistant Account Manager Re-sponsibilities
Ensures smooth implementation of programs and
initiatives Helps manage the delivery of
projects and key client deliverables ...
Compensation: $50,000-$80,000 Hiring
Organization: Firm XYZ
INDUSTRY
POSITION
LOCATION
COMPANY
SALARY
Advertising
Assistant Account
Manager
Bigtown, CA
Firm XYZ
$50,000-$80,000
‫اطلعات‬ ‫استخراج‬
At the semantic (meaning) level
They put money in the bank
buried in
mud
?
‫ی‬‫ا‬‫ن‬‫ع‬‫م‬
‫ه‬‫م‬‫ل‬‫ک‬
‫طبیعی‬ ‫های‬ ‫زبان‬ ‫پردازش‬ ‫دنیای‬ ‫در‬‫رویکرد‬ ‫دو‬:‫دارد‬ ‫وجود‬ ‫مسئله‬ ‫حل‬ ‫برای‬ ‫کلی‬
:‫اول‬ ‫رویکرد‬:‫اول‬ ‫رویکرد‬Symbolic ApproachSymbolic Approach
( ‫های‬ ‫روش‬rule base)‫دانش‬ ‫کامپیوتر‬ ‫به‬ ‫دستی‬ ‫صورت‬ ‫به‬ ‫و‬ ‫هستند‬ ‫زبان‬ ‫و‬ ‫نحو‬ ‫دستور‬
:‫کنیم‬ ‫می‬ ‫سازی‬ ‫پیاده‬ ‫آن‬ ‫برای‬ ‫را‬ ‫زبان‬ ‫قوانین‬ ‫و‬ ‫دهیم‬ ‫می‬
‫مزیت‬. :‫دارد‬ ‫بالیی‬ ‫دقت‬
‫عیب‬:‫تمام‬ ‫پیشبینی‬ ‌،‫است‬ ‫سخت‬ ‫حالت‬ ‫همه‬ ‫برای‬ ‫اطلعات‬ ‫کردن‬ ‫وارد‬ ‫هستند‬ ‫دستی‬ ‫چون‬
!‫زبانند‬ ‫به‬ ‫وابسته‬ ‫و‬ ‫است‬ ‫ممکن‬ ‫غیر‬ ‫حالت‬
:‫دوم‬ ‫رویکرد‬:‫دوم‬ ‫رویکرد‬Statistical ApproachStatistical Approach
‫فرمول‬ ‫و‬ ‫ریاضیات‬ ‫با‬ ‫همراه‬ ‫‌ست‬‫ی‬‫آمار‬ ‫روش‬ ‫یک‬
‫مزیت‬. :‫است‬ ‫زبان‬ ‫از‬ ‫مستقل‬ ،‫کند‬ ‫می‬ ‫استنتاج‬ ‫ما‬ ‫برای‬ ‫را‬ ‫قوانین‬ ‫اتوماتیک‬ ‫صورت‬ ‫به‬
‫عیب‬. :‫کند‬ ‫نمی‬ ‫عمل‬ ‫خوبی‬ ‫به‬ ‫روش‬ ،‫باشیم‬ ‫نداشته‬ ‫خوبی‬ ‫کورپس‬ ‫اگر‬
‫و‬ ‫محتوا‬ ‫از‬ ‌،‫همشهری‬ ‫کورپس‬
‫همشهری‬ ‫روزنامه‬ ‫خود‬ ‫مطالب‬
،‫تی‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫در‬‫تی‬‫ن‬‫مت‬ ‫پیکره‬‫ا‬‫ت‬‫ی‬‫تی‬‫ن‬‫واژگا‬ ‫پیکره‬: (‫ار‬‫ت‬‫ص‬‫‌اخت‬‫ه‬‫ب‬‫پیکره‬( )‫به‬
:‫انگلیستی‬text corpus, corpus)‫زبانی‬ ‫‌های‬‫ه‬‫داد‬ ‫از‬ ‫خام‬ ‫‌ای‬‫ه‬‫مجموع‬ ‫بته‬
‫بهره‬ ‫آن‬ ‫از‬ ‫زبان‬ ‫تل‬‫ی‬‫تحل‬ ‫و‬ ‫یف‬‫ت‬‫ص‬‫تو‬ ‫در‬ ‫‌توان‬‫ی‬‫م‬ ‫ته‬‫ک‬ ‫‌شود‬‫ی‬‫م‬ ‫ته‬‫ت‬‫گف‬ ‫گفتاری‬ ‫ا‬‫ت‬‫ی‬ ‫نوشتاری‬
.‫ایتالیایی‬ ‫واژه‬ ‫از‬ ‫کورپس‬ ‫گرفت‬Corpora.‫آید‬ ‫می‬
‫با‬ ‫س‬‫کورپتتت‬ ‫ک‬‫یتتت‬ ،‫خوان‬ ‫ن‬‫ت‬‫بیژتت‬
2.600.000‫شده‬ ‫گذاری‬ ‫تگ‬ ‫ته‬‫م‬‫کل‬
‫ساخته‬ ‫روزنامته‬ ‫متون‬ ‫از‬ ‫پیکره‬ ‫ایتن‬
.‫است‬ ‫شده‬
‫تایمز‬ ‫نیویورک‬ ‫و‬ ‫پست‬ ‫واشنگتن‬ ‫کورپس‬
( ‫ه‬‫ت‬‫ی‬‫تجز‬ ‫ت‬‫ت‬‫خ‬‫در‬parse tree)‫و‬ ‫‌ها‬‫ه‬‫جمل‬ ‫ه‬‫ت‬‫ی‬‫تجز‬ ‫برای‬ ‫ویری‬‫ت‬‫ص‬‫ت‬ ‫ی‬‫ت‬‫ش‬‫رو‬ ،‫ی‬‫ت‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫تر‬‫د‬ ،
.‫‌ای‬‫ه‬‫ریش‬ ‫رختی‬‫ت‬‫د‬ ‫نموداری‬ ‫مشتتق‬ ،‫پارس‬ ‫ت‬‫درخت‬ ‫ت‬‫است‬ ‫ر‬‫کوچکتت‬ ‫اجزای‬ ‫ه‬‫بت‬ ‫ا‬‫ت‬‫‌ه‬‫ت‬‫عبار‬
) ( ) (‫زبان‬ ‫دستور‬ ‫ا‬‫ت‬‫ب‬ ‫مطابق‬ ‫را‬ ‫رشته‬ ‫زنجیره‬ ‫یک‬ ‫نحوی‬ ‫اختار‬‫ت‬‫س‬ ‫که‬ ‫است‬ ‫منظمی‬ ‫و‬ ‫بنیادی‬
. ) (‫‌کند‬‫ی‬‫م‬ ‫ارائه‬ ‫متن‬ ‫از‬ ‫مستقل‬ ‫فرض‬ ‫با‬ ‫گرامر‬
S=sentence,
VP=verb
phrase,
NP=noun
phrase,
PP=prepositional
‫لزم‬ ‫فعل‬sleeps
‫دارند‬ ‫نیاز‬ ‫مفعول‬ ‫به‬ ‫که‬ ‫افعالی‬
‫متعدی‬ ‫فعل‬sees
‫ندارند‬ ‫نیاز‬ ‫مفعول‬ ‫به‬
‫الگوریتم‬CFG
‫و‬PCFG
‫استنفرد‬ ‫زبان‬ ‫پردازش‬ ‫ابزار‬
!‫است‬ ‫زبان‬ ‫از‬ ‫توصیفی‬
،‫زبان‬ ‫کردن‬ ‫مدل‬‫آماری‬ ‫توزیع‬ ‫یک‬‫روی‬ ‫بر‬‫کلمات‬ ‫توالی‬.‫است‬
Language Modeling
: .‫مثل‬ ‫است‬ ‫جمله‬ ‫یک‬ ‫به‬ ،‫احتمال‬ ‫میزان‬ ‫دادن‬ ،‫هدف‬ ‫و‬
:‫ماشینی‬ ‫ترجمه‬ ‫در‬
:‫لمات‬‫ت‬‫ک‬ ‫تصحیح‬
:‫گفتار‬ ‫تصحیح‬ ‫در‬
P(high winds tonite) > P(large winds
tonite)
P(about fifteen minutes from) > P(about fifteen minuets
from)
P(I saw a van) >> P(eyes awe of an)
‫فرانسوی‬ ‫عامیانه‬ ‫رقص‬ ‫نوع‬ ‫یک‬ ‫منوئه‬ ‫یا‬ ‫مینوئت‬
‫متحده‬ ‫ایالت‬ ‫تر‬‫د‬ ‫سرگرمی‬ ‫صنعت‬ ‫تر‬‫د‬ ‫تبلیغات‬
Probabilistic Language Modeling
. :‫کلمات‬ ‫از‬ ‫ای‬ ‫زنجیره‬ ‫یا‬ ‫جمله‬ ‫آمدن‬ ‫احتمال‬ ‫محاسبه‬ ‫هدف‬
P(W) = P(w 1
,w 2
,w 3
,w 4
,w 5
…,w
n
)
. :‫جمله‬ ‫در‬ ‫بعدی‬ ‫کلمه‬ ‫آمدن‬ ‫محاسبه‬ ‫مرتبط‬ ‫وظایف‬
P(W5
| w 1
,w 2
,w 3
,w 4
)
(‫قوانین‬ ‫محاسبه‬ ‫طریقه‬chain rule:)
P(its, water, is, so, transparent,
that)
P(x 1
,x 2
,x 3
,...,x n
) = P(x 1
)P(x 2
|x 1
)P(x 3
|
x 1
, x 2
)...P(x n
|x 1
,...,x n-1
)
P(w i
| w 1
w 2
... w i-1
)
P(“its water is so transparent”) = P(its) ×
P(water|its) × P(is|its water) × P(so|its
water is) × P(transparent|its water is so)
‫؟‬ ‫بسنجیم‬ ‫را‬ ‫احتمالت‬ ‫این‬ ‫صحت‬ ‫چگونه‬ ‫حال‬
P(the | its water is so transparent that) = Count(its water is so transparent that
the)
Count(its water is so transparent
that)No! Too many possible sentences
We’ll never see enough data for estimating these
‫مارکوف‬ ‫آندری‬
‫روسی‬ ‫‌دان‬‫ی‬‫ریاض‬
‫زمینه‬ ‫در‬
‫احتمالت‬ ‫نظریه‬
‫وابستگی‬ ‫خودش‬ ‫به‬ ‫نزدیک‬ ‫کلمات‬ ‫به‬ ‫فقط‬ ‫اصطلح‬ ‫در‬ ‫‌ای‬‫ه‬‫کلم‬ ‫هر‬
‫کلمات‬ ‫تمامی‬ ‫مشاهده‬ ‫به‬ ‫نیازی‬ ‫و‬ ‫دارد‬!‫نیست‬
the torvalds laughs
P(the torvalds laughs)= P (the|
start) * (torvalds|start,the) *
(laughs|the,torvalds) * (stop|
torvalds,laughs) ‫با‬ ‫که‬ ‫جملتی‬ ‫احتمال‬the torvalds‫باشند‬ ‫شده‬ ‫شروع‬
‫با‬ ‫که‬ ‫آنهایی‬ ‫تعداد‬the‫شوند‬ ‫می‬ ‫زوع‬
،‫احتمالت‬ ‫و‬ ‫ی‬‫ت‬‫ش‬‫رایان‬ ‫ی‬‫ت‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫‌های‬‫ه‬‫حوز‬ ‫در‬n-gram‫از‬ ‫ته‬‫ت‬‫س‬‫پیو‬ ‫‌ای‬‫ه‬‫دنبال‬ ‫ا‬‫ت‬‫ه‬nٔ‫دنباله‬ ‫تک‬‫ی‬ ‫در‬ ‫م‬‫ت‬‫ل‬‫ق‬
.‫‌باز‬‫ت‬‫جف‬ ‫یا‬ ،‫ته‬‫ژ‬‫وا‬ ،‫حرف‬ ،‫ا‬‫ت‬‫ج‬‫ه‬ ،‫واج‬ ‫تد‬‫ن‬‫‌توان‬‫ی‬‫م‬ ‫اقلم‬ ،‫کاربردشان‬ ‫ه‬‫ت‬‫ب‬ ‫تته‬‫س‬‫ب‬ ‫تتند‬‫س‬‫ه‬ ‫کلم‬ ‫ا‬‫ت‬‫ی‬ ‫ن‬‫ت‬‫ت‬‫م‬ ‫از‬ ‫ن‬‫ت‬‫ی‬‫مع‬
.‫مدل‬ ‫باشند‬n-gram‫به‬ ‫‌ای‬‫ه‬‫دنبال‬ ‫در‬ ‫بعدی‬ ‫م‬‫ت‬‫ل‬‫ق‬ ‫ی‬‫ت‬‫ن‬‫‌بی‬‫ش‬‫پی‬ ‫برای‬ ‫ه‬‫ت‬‫ک‬ ‫تت‬‫س‬‫ا‬ ‫ی‬‫ت‬‫ت‬‫احتمال‬ ‫ی‬‫ت‬‫ن‬‫زبا‬ ‫مدل‬ ‫ی‬‫ت‬‫ع‬‫نو‬
ٔ‫مرتبه‬ ‫شکل‬(n − 1).‫‌رود‬‫ی‬‫م‬ ‫کار‬ ‫به‬ ‫مارکوف‬
‫ه‬‫ت‬‫بت‬n-gram) ( ) (‫و‬ ، ‫‌گرم‬‫ی‬‫با‬ ‫دوگرم‬ ، ‫‌گرم‬‫ن‬‫وا‬ ‫‌گرم‬‫ک‬‫ت‬ ‫ترتیب‬ ‫ه‬‫ت‬‫بت‬ ‫ه‬‫ت‬‫ست‬ ‫و‬ ،‫دو‬ ،‫ک‬‫یتت‬ ‫‌های‬‫ه‬‫انداز‬ ‫ا‬‫بتت‬
. ) (‫‌یابد‬‫ی‬‫م‬ ‫ادامه‬ ‫منوال‬ ‫همین‬ ‫به‬ ‫نامگذاری‬ ‫و‬ ‫‌شود‬‫ی‬‫م‬ ‫گفته‬ ‫نیز‬ ‫‌گرم‬‫ی‬‫تر‬ ‫‌گرم‬‫ه‬‫س‬
!‫‌گرم‬‫ی‬‫با‬ ‫احتمالت‬ ‫برآورد‬!‫‌گرم‬‫ی‬‫با‬ ‫احتمالت‬ ‫برآورد‬
SpellingSpelling
ErrorError
DetectionDetection
SpellingSpelling
ErrorError
CorrectioCorrectio
Types of spelling errors
Non-word Errors
graffe => giraffe
Real-word Errors
Typographical errors
three => there
Cognitive Errors (homophones)
piece => peace
too => two
‫پیشنهاد‬ ‫دادن‬ ‫با‬ ‫که‬
Suggest a
correction
‫از‬ ‫لیستی‬ ‫یا‬ ‫و‬ ‫تصحیح‬
‫پیشنهادی‬ ‫کلمات‬
Suggestion lists
.‫شود‬ ‫می‬ ‫برطرف‬
Non-word spelling error detection
Any word not in a dictionary is an error
The larger the dictionary the better
Non-word spelling error correction
Generate candidates
real words that are similar to error
Choose the one which is best
Shortest weighted edit distance
Highest noisy channel probability
The noisy channel model is a framework used in spell
checkers, question answering, speech recognition,
and machine translation. In this model, the goal is
to find the intended word given a word where the
letters have been scrambled in some manner
Insertion
Deletion
Substitution
Transpositio
n
Words within 1 of acress ٪80‫ها‬ ‫ارور‬1‫حرفی‬
‫مابقی‬ ‫اکثر‬ ‫حدودا‬ ‫و‬
‫دوحرفی‬‫هستند‬
P(x|w)P(x|w)
‫بیشترین‬ ‫که‬ ‫ای‬ ‫رشته‬P(w)‫ت‬‫د‬‫دار‬ ‫را‬
) (‫کورپس‬ ‫به‬ ‫توجه‬ ‫با‬ ‫شود‬ ‫می‬ ‫انتخاب‬
: (‫تی‬‫س‬‫انگلی‬ ‫ته‬‫ب‬ ‫ته‬‫م‬‫کل‬ ‫ام‬‫ت‬‫س‬‫اق‬POS‫ا‬‫ت‬‫ی‬PoS‫یا‬Part
of speech)‫‌ها‬‫ه‬‫واژ‬ ‫‌بندی‬‫ه‬‫ت‬‫ت‬‫دس‬ ‫از‬ ‫‌ای‬‫ه‬‫شیو‬ ‫بته‬
‫براساس‬ ‫ا‬‫ت‬‫‌ه‬‫ه‬‫واژ‬ ،‫ن‬‫آت‬ ‫ق‬‫برطبت‬ ‫کته‬ ‫‌شود‬‫ی‬‫م‬ ‫گفتته‬
‫‌بندی‬‫ه‬‫طبق‬ ‫‌کنند‬‫ی‬‫م‬ ‫ا‬‫ت‬‫ت‬‫ایف‬ ‫ن‬‫ت‬‫ت‬‫مت‬ ‫در‬ ‫ه‬‫ت‬‫ت‬‫ک‬ ‫ی‬‫ت‬‫ت‬‫نقش‬
.‫کشیش‬ ‫یتک‬ ‫ط‬‫توست‬ ‫ابتدا‬ ‫شیوه‬ ‫ایتن‬ ‫‌شوند‬‫ی‬‫م‬
،‫اسم‬ ِ‫گروهت‬ ‫هشتت‬ ‫بته‬ ‫را‬ ‫ا‬‫ت‬‫‌ه‬‫ه‬‫واژ‬ ‫او‬ ‫شتد؛‬ ‫انجام‬
‫و‬ ‫پیوندواژه‬ ،‫تت‬‫ش‬‫برنه‬ ،‫تد‬‫ی‬‫ق‬ ،‫ر‬‫ت‬‫ی‬‫ضم‬ ،‫تل‬‫ع‬‫ف‬ ،‫تفت‬‫ص‬
.‫کرد‬ ‫‌بندی‬‫م‬‫تقسی‬ ‫ندا‬ ‫حرف‬
Parts-of-speech are often ambiguous
I have to go there
I had a go at it
verb
nou
nIf the previous word is “to”, then it’s a
verb
If the previous word is “a”, then it’s a
noun
If the next word is
Writing rules manually is impossible
‫ی‬‫ر‬‫و‬‫ت‬‫س‬‫د‬ ‫ه‬‫ا‬‫گ‬‫ی‬‫ا‬‫ج‬ ‫ه‬‫ت‬‫ب‬ ‫ه‬‫ت‬‫ج‬‫و‬‫ت‬ ‫ی‬‫ا‬‫ج‬ ‫ه‬‫ت‬‫ب‬
‫ه‬‫ت‬‫ب‬ ‫ه‬‫ت‬‫ل‬‫م‬‫ج‬ ‫ر‬‫د‬ ‫ه‬‫ت‬‫م‬‫ل‬‫ک‬
‫ش‬‫ت‬‫ق‬‫ن‬
‫ه‬‫ج‬‫و‬‫ت‬ ‫ن‬‫ت‬‫آ‬
!‫د‬‫و‬‫ش‬ ‫ی‬‫م‬
...
( -‫‌یابی‬‫ه‬‫ریش‬ ‫استمینگ‬stemming)
‫در‬‫مورفولوژتی‬( ) - (‫یا‬ ‫واژگان‬ ‫ش‬‫کاهت‬ ‫د‬‫فراینت‬ ‫زبان‬ ‫فرم‬ ‫ویژته‬ ‫ت‬‫شناخت‬ ‫ی‬‫‌شناست‬‫ت‬‫ریخ‬
‫اوقات‬ ‫ی‬‫ت‬‫ض‬‫بع‬‫تق‬‫ت‬‫مش‬)‫د‬‫ت‬‫ن‬‫گوی‬ ‫ی‬‫ت‬‫م‬ ‫ا‬‫ت‬‫ه‬‫آن‬ ‫شده‬‫می‬ ‫ته‬‫ژ‬‫وا‬ ‫تک‬‫ی‬ ‫ته‬‫ش‬‫ری‬ ‫ا‬‫ت‬‫ی‬ ‫ته‬‫ی‬‫پا‬ ‫ته‬‫ب‬ ‫ر‬‫ت‬‫گ‬‫دی‬ ‫تی‬‫ت‬‫عبار‬ ‫ته‬‫ب‬
. ‫گویند‬
Conflation
Methods
Manual Automatic
(stammers)
Affix Removal
Successor Variety
Table Lookup n-
grarn
 Table lookup
approach
:‫ت‬‫د‬‫رویکر‬‫تمامی‬ ‫ه‬‫ریشت‬ ‫از‬ ‫داده‬ ‫پایگاه‬ ‫ک‬‫یت‬
‫کلمات‬ ‫ریشه‬ ‫و‬ ‫تم‬‫ی‬‫کن‬ ‫ایجاد‬ ‫تن‬‫ک‬‫مم‬ ‫کلمات‬
.‫کنیم‬ ‫پیدا‬ ‫داده‬ ‫پایگاه‬ ‫این‬ ‫در‬ ‫مقایسه‬ ‫با‬ ‫را‬
:‫تکلت‬‫ش‬‫م‬‫زبان‬ ‫برای‬ ‫بیسی‬ ‫ا‬‫ت‬‫ت‬‫یت‬‫ت‬‫د‬ ‫ن‬‫ت‬‫ت‬‫چنی‬
.‫ندارد‬ ‫وجود‬ ‫ها‬ ‫زبان‬ ‫سایر‬ ‫یا‬ ‫و‬ ‫انگلیسی‬
‫و‬ ،‫است‬ ‫زیاد‬ ‫نگهداری‬ ‫و‬ ‫‌وجو‬‫ت‬‫ت‬‫س‬‫ج‬ ‫ربار‬‫ت‬‫س‬
!‫ندارد‬ ‫اقتصادی‬ ‫صرفه‬
the short prefix "be", which is the stem of
such words as "be", "been" and "being", would
not be considered as the stem of the word
 Successor Variety
!‫قله‬ ‫و‬ ‫فلت‬ ‫روش‬
‫کلمات‬ ‫از‬ ‫بعضی‬ ‫در‬
‫مثل‬writing‫ریشه‬ ‫با‬
write‫دهد‬ ‫نمی‬ ‫جواب‬
 n-gram stemmers
statistics => st ta at ti is st ti ic cs
unique digrams = at cs ic is st ta ti
statistical => st ta at ti is st ti ic
ca al
unique digrams = al at ca ic is st ta ti
Dice’s coefficient (similarity)
a|b|c|d
ab|bc|cd
abc|bcd|cde
 Affix Removal
Stemmers
.‫کنند‬ ‫می‬ ‫پاک‬ ‫زبان‬ ‫نحوی‬ ‫قوانین‬ ‫اساس‬ ‫بر‬ ‫را‬ ‫ها‬ ‫پسوند‬ ‫و‬ ‫پیشوند‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫اینگونه‬
‫آقای‬ ‫از‬ ‫زیر‬ ‫مثال‬ ‫نمونه‬ ‫عنوان‬ ‫با‬Harman 1991:‫است‬
If a word ends in “ies” but not ”eies”
or ”aies” Then “ies” -> y
If a word ends in “es” but not ”aes” ,
or ”ees ” or “oes” Then “es” -> e
If a word ends in “s” but not ”us” or
”ss” Then “s” -> NULL:‫دارد‬ ‫وجود‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫گونه‬ ‫این‬ ‫مورد‬ ‫در‬ ‫نکته‬ ‫دو‬ ‫ولی‬ ‫دارند‬ ‫خوبی‬ ‫کارایی‬ ‫اینکه‬ ‫وجود‬ ‫با‬I.‫منحصر‬‫به‬
‫زبان‬.‫هستند‬II.‫را‬ ‫موارد‬ ‫تمام‬.‫دهند‬ ‫نمی‬‫ت‬‫ش‬‫پوش‬!‫نمونه‬
agreed
Lexical Semantics
Two alternative guesses of speech recognizer
For breakfast, she ate durian
For breakfast, she ate Dorian
Our corpus contains neither “ate durian” nor “ate Dorian”
words
But, our corpus contains “ate orange”, “ate banana” words
‫مردمان‬Dorian‫تر‬‫د‬ ،‫مرکز‬‫یونان‬‫قدیم‬
‫استوایی‬ ‫شکل‬ ‫بیضی‬ ‫میوه‬ ‫یک‬‫که‬
‫است‬ ‫مانند‬ ‫ای‬ ‫خامه‬ ‫خمیر‬ ‫یک‬ ‫حاوی‬ ‫گوشتش‬
‫مفهوم‬ ‫با‬ ‫ته‬‫ط‬‫راب‬ ‫در‬ ‫ش‬‫ت‬‫خ‬‫ب‬ ‫تن‬‫ی‬‫ا‬ ‫در‬ ،‫بوده‬ ‫اختار‬‫ت‬‫س‬ ‫ته‬‫ب‬ ‫مربوط‬ ‫تم‬‫ی‬‫داشت‬ ‫ته‬‫ک‬ ‫تی‬‫ی‬‫ها‬ ‫تی‬‫س‬‫بر‬ ‫تمام‬ ‫الن‬ ‫ا‬‫ت‬‫ت‬
.‫کنیم‬ ‫می‬ ‫صحبت‬ ‫کلمات‬
‫کاربرد‬lexical semantic:
✔
‫های‬ ‫سیستم‬IR (Information Retrieval)
✔
‫های‬ ‫سیستم‬Q&A (Question and Answering)
✔
‫های‬ ‫سیستم‬MT (Machine Translation)
‫د‬‫کلیدی‬ ‫کلمات‬ ‫از‬ ‫آنها‬ ‫تن‬‫ی‬‫ب‬ ‫ت‬‫ت‬‫ه‬‫شبا‬ ‫و‬ ‫تن‬‫ت‬‫م‬ ‫دو‬ ‫ته‬‫س‬‫مقای‬ ‫برای‬ ‫ته‬‫ت‬‫گذش‬ ‫ر‬(back of words)
‫در‬ ‫اما‬ ‫کردیم‬ ‫می‬ ‫استفاده‬lexical.‫دهیم‬ ‫می‬ ‫تشخیص‬ ‫مفهوم‬ ‫طریق‬ ‫از‬
1.‫بپرسیم‬ ‫سوال‬ ‫یک‬.‫بدهد‬ ‫جواب‬ ‫چند‬
.‫دهیم‬ ‫می‬ ‫انجام‬ ‫بینگ‬ ‫و‬ ‫گوگل‬ ‫در‬ ‫که‬ ‫ای‬ ‫روزانه‬ ‫های‬ ‫جو‬ ‫و‬ ‫جست‬
2.‫و‬ ‫بپرسیم‬ ‫سوال‬ ‫یک‬.‫بدهد‬ ‫جواب‬ ‫یک‬
–‫ساعت‬ ‫است؟‬ ‫چند‬ ‫ساعت‬ ‫تهران‬ ‫شیراز‬ ‫پرواز‬10. ‫صبح‬
- (‫لغات‬ ‫فرهنگ‬ ‫واژگان‬Lexicon)‫‌شناسی‬‫ن‬‫زبا‬ ‫اصطلح‬ ‫در‬‫است‬ ‫معنایی‬ ‫نظام‬ ‫یک‬‫که‬
.‫‌کند‬‫ی‬‫م‬ ‫معین‬ ‫را‬ ‫‌ها‬‫ه‬‫واژ‬ ‫دستوری‬ ‫یا‬ ‫اصلی‬ ‫‌های‬‫ه‬‫پای‬
‫ا‬‫ت‬‫ی‬ ‫واژگان‬ ‫پیکره‬WordNet‫ساختار‬ ‫در‬ ‫ا‬‫ت‬‫ه‬ ‫ن‬‫ت‬‫آ‬ ‫ارتباط‬ ‫و‬ ‫لغات‬ ‫از‬ ‫بزرگ‬ ‫بتا‬‫ت‬‫س‬‫ن‬ ‫ی‬ ‫ته‬‫ع‬‫مجمو‬ ‫تک‬‫ی‬
.‫تت‬‫ق‬‫حقی‬ ‫در‬ ‫تت‬‫ن‬‫ورد‬ ‫تت‬‫س‬‫ا‬ ‫متون‬.‫میکند‬ ‫بیان‬ ‫را‬ ‫ته‬‫م‬‫کل‬ ‫دو‬ ‫تن‬‫ی‬‫ب‬ ‫تی‬‫ی‬‫معنا‬ ‫ته‬‫ط‬‫راب‬‫کبوتر‬ ‫مثال‬ ‫عنوان‬ ‫ته‬‫ب‬
.‫است‬ ‫جاندار‬ ‫نوع‬ ‫یتک‬ ‫حیوان‬ ‫و‬ ‫ت‬‫است‬ ‫حیوان‬ ‫نوع‬ ‫یتک‬ ‫پرنده‬ ‫و‬ ‫استت‬ ‫پرنده‬ ‫نوع‬ ‫از‬((IS-A,IS-A,
Part-OfPart-Of))
‫ا‬‫ت‬‫ی‬ ‫واژگان‬ ‫پیکره‬ ‫تک‬‫ی‬ ‫ه‬‫ت‬‫ک‬‫این‬ ‫برای‬WordNet‫را‬ ‫آن‬ ‫معمول‬ ،‫تد‬‫ش‬‫با‬ ‫تر‬‫ت‬ ‫تب‬‫س‬‫منا‬ ‫ی‬‫ت‬‫ن‬‫زبا‬ ‫تحقیقات‬ ‫انجام‬ ‫برای‬
( .‫کلم‬ ‫اجزا‬ ‫گذاری‬ ‫برچسب‬ ‫مثال‬ ‫عنوان‬ ‫ه‬‫ت‬‫ب‬ ‫کنند‬ ‫ی‬‫ت‬‫م‬ ‫نگاری‬ ‫ه‬‫ت‬‫ی‬‫حاش‬part-of-speech tagging)
‫م‬‫ت‬‫ل‬ ‫ن‬‫ت‬‫ی‬‫تعی‬ ‫ا‬‫ت‬‫ی‬lemmatization) (‫تجزیه‬ ‫ا‬‫ت‬‫ی‬ ‫داده‬ ‫پایگاه‬ ‫ه‬‫ت‬‫ب‬ ‫لغات‬ ‫ه‬‫ت‬‫ی‬‫پا‬ ‫فرم‬ ‫بازگرداندن‬ ‫و‬ ‫ا‬‫ت‬‫ه‬‫انت‬ ‫حذف‬
(‫متون‬ ‫کامل‬ ‫نحوی‬Parse)
●: ‫باشد‬ ‫داشته‬ ‫باید‬ ‫نت‬ ‫ورد‬ ‫یک‬ ‫که‬ ‫مواردی‬
✔‫ف‬‫ت‬‫د‬‫مترا‬Synonymy:‫که‬ ‫کلمات‬‫نت‬ ‫ورد‬ ‫درخت‬ ‫اول‬ ‫سطح‬ ‫همیشه‬ ،‫دارند‬ ‫مشابهی‬ ‫مفهوم‬
‫مثال‬ ‫عنوان‬ ‫به‬ ‫است‬ ‫مترادف‬marriage, matrimony, union, wedlock
✔‫چندمعنایی‬Polysemy: :‫اند‬ ‫قسم‬ ‫تو‬‫د‬ ‫بر‬ ‫که‬ ‫دارند‬ ‫معنا‬ ‫یک‬ ‫از‬ ‫بیش‬ ‫لغات‬ ‫بیشتر‬
✔‫دارد‬ ‫مختلفی‬ ‫معانی‬ ‫اما‬ ‫است‬ ‫واژه‬ ‫یک‬ ‫که‬ ‫وقتی‬Hyponymy.‫مثل‬bank(‫بستر‬
)‫رودخانه‬bank) (‫اعتباری‬ ‫و‬ ‫مالی‬ ‫موسسات‬
✔‫اند‬ ‫وابسته‬ ‫هم‬ ‫به‬ ‫معانی‬ ‫ولی‬ ‫است‬ ‫واژه‬ ‫یک‬ ‫که‬ ‫وقتی‬Polysemy.‫مثل‬ear
) (‫و‬ ‫ت‬‫ش‬‫گو‬ear) (‫شنوایی‬ ‫حس‬
✔‫کلمه‬ ‫یک‬ ‫مجاز‬Metonymy.‫مانند‬ ‫شود‬ ‫دیگر‬ ‫کلمه‬ ‫جایگزین‬ ‫‌ای‬‫ه‬‫کلم‬ ‫وقتی‬whitewhite
househouse‫مجاز‬ ‫و‬ ‫معنی‬ ‫که‬AmericaAmerica‫است‬
✔‫‌تر‬‫م‬‫عا‬ ‫و‬ ‫‌تر‬‫ص‬‫خا‬ ‫روابط‬Hyponymy/Hyperonymy (IS A)
‫ایم‬ ‫بوده‬ ‫کبوتر‬ ‫کلمه‬ ‫نبال‬‫ت‬‫د‬ ‫به‬ ‫ما‬
‫‌ایم‬‫ه‬‫پرند‬ ‫دنبال‬ ‫به‬ ‫بالتر‬ ‫سطوح‬ ‫تر‬‫د‬ ‫اما‬dove is a bird
‫کلمه‬ ‫یک‬ ‫برعکس‬ ‫ارتباط‬Meronymy‫و‬ ‫بودن‬ ‫جز‬ ‫یعنی‬part of
.‫ساختمان‬ ‫از‬ ‫جزئی‬ ‫اتاق‬ ،‫ت‬‫ت‬‫س‬‫ا‬ ‫اتاق‬ ‫از‬ ‫جزئی‬ ‫تر‬‫د‬
‫یا‬ ‫کلمه‬ ‫یک‬ ‫متضاد‬Antonymy| ‫بزرگ‬ ‫و‬ ‫کوچک‬ ‫مثل‬large and small
‫خورد‬ ‫می‬ ‫ما‬ ‫درد‬ ‫به‬ ‫کجا‬ ‫در‬ ‫ها‬ ‫این‬ ،‫حال‬
‫مثل‬ ‫کلماتی‬ ‫کنید‬ ‫فرض‬apple, banana, grape, grapefruit‫درخت‬ ‫ساختار‬ ‌،‫داریم‬
.‫کند‬ ‫می‬ ‫کمک‬ ‫خیلی‬ ‫اینجا‬ ‫وردنت‬
‫و‬ ‫برداری‬ ‫فضای‬ ‫توانیم‬ ‫می‬ ‫داریم‬ ‫اختیار‬ ‫در‬ ‫که‬ ‫‌نتی‬‫ت‬‫د‬‫ور‬ ‫و‬ ‫ها‬ ‫فرمول‬ ‫این‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫حال‬
. ‫کنیم‬ ‫محاسبه‬ ‫را‬ ‫کلمات‬ ‫بین‬ ‫شباهت‬
https://pypi.org/project/yandex-
translater/1.0
pip install yandex-
translater
‫یاندکس‬‫یاندکس‬: (‫روسی‬ ‫به‬: (‫روسی‬ ‫به‬ЯндексЯндекс)‫موتور‬ ‫بزرگترین‬ ‫که‬ ‫است‬ ‫روسی‬ ‫اطلعات‬ ‫فناوری‬ ‫شرکت‬ ‫یک‬ )‫موتور‬ ‫بزرگترین‬ ‫که‬ ‫است‬ ‫روسی‬ ‫اطلعات‬ ‫فناوری‬ ‫شرکت‬ ‫یک‬
.‫خانگی‬ ‫صفحه‬ ‫‌کند‬‫ی‬‫م‬ ‫اداره‬ ‫را‬ ‫جهان‬ ‫جستجوی‬ ‫موتور‬ ‫هشتمین‬ ‫و‬ ‫روسیه‬ ‫جستجوی‬.‫خانگی‬ ‫صفحه‬ ‫‌کند‬‫ی‬‫م‬ ‫اداره‬ ‫را‬ ‫جهان‬ ‫جستجوی‬ ‫موتور‬ ‫هشتمین‬ ‫و‬ ‫روسیه‬ ‫جستجوی‬Yandex.ruYandex.ru
.‫است‬ ‫روسیه‬ ‫در‬ ‫سایت‬ ‫وب‬ ‫‌ترین‬‫ب‬‫محبو‬.‫است‬ ‫روسیه‬ ‫در‬ ‫سایت‬ ‫وب‬ ‫‌ترین‬‫ب‬‫محبو‬
1
‫ی‬‫ر‬‫ی‬‫گ‬‫د‬‫ا‬‫ی‬ ‫ز‬‫ا‬ ‫ی‬‫ا‬ ‫ه‬‫ن‬‫و‬‫م‬‫ن‬
‫ی‬‫ر‬‫ی‬‫گ‬‫د‬‫ا‬‫ی‬ ‫ز‬‫ا‬ ‫ی‬‫ا‬ ‫ه‬‫ن‬‫و‬‫م‬‫ن‬
‫ی‬‫ن‬‫ی‬‫ش‬‫ا‬‫م‬
‫ی‬‫ن‬‫ی‬‫ش‬‫ا‬‫م‬
‫گ‬‫گ‬‫و‬‫و‬‫گ‬‫گ‬‫ل‬‫ل‬
‫متن‬ ‫کردن‬ ‫مرتب‬ ‫و‬ ‫تمیز‬
‫فارسی‬ ‫زبان‬ ‫‌های‬‫ه‬‫داد‬ ‫از‬ ‫استفاده‬ ‫واسط‬
‫‌ها‬‫ه‬‫واژ‬ ‫و‬ ‫‌ها‬‫ه‬‫جمل‬ ‫تقطیع‬
‫‌ها‬‫ه‬‫واژ‬ ‫‌یابی‬‫ه‬‫ریش‬
‫جمله‬ ‫صرفی‬ ‫تحلیل‬
‫جمله‬ ‫نحوی‬ ‫تجزیه‬
‫بسته‬ ‫با‬ ‫سازگاری‬NLTK
‫نسخه‬ ‫پایتون‬ ‫از‬ ‫پشتیبانی‬۲‫و‬۳
‫ی‬‫ها‬ ‫ه‬‫چ‬‫ب‬ ‫ز‬‫ا‬ ‫ی‬‫ار‬‫ک‬
‫ه‬‫ح‬‫ب‬ ُ‫س‬
‫ن‬‫یا‬‫بن‬‌‫ش‬‫ان‬‫د‬ ‫ت‬‫ک‬‫ر‬‫ش‬
» «‫ف‬‫ر‬‫ژ‬‫ت‬‫ش‬‫ز‬‫دا‬‫ر‬‫پ‬ ‫ر‬‫کا‬‫ه‬‫را‬
‫بحه‬ ُ‫س‬
‫به‬ ‫ن‬‫ت‬‫ي‬‫ماش‬ ‫و‬ ‫ان‬‫ت‬‫س‬‫ان‬ ‫ن‬‫ت‬‫ي‬‫ب‬ ‫ارتباط‬ ‫برای‬ ‫تی‬‫ب‬‫جذا‬ ‫يار‬‫ت‬‫س‬‫ب‬ ‫تت‬‫ف‬‫رهيا‬ ‫بيعی‬‫ت‬‫ط‬ ‫زبان‬ ‫پردازش‬
‫شگفت‬ ‫تحولت‬ ‫د‬‫ت‬‫ن‬‫میتوا‬ ‫تل‬‫م‬‫کا‬ ‫طور‬ ‫ته‬‫ب‬ ‫ش‬‫ت‬‫ن‬‫شد‬ ‫تی‬‫ل‬‫عم‬ ‫تورت‬‫ص‬ ‫در‬ ‫و‬ ‫د‬‫ت‬‫ي‬‫‌آ‬‌‫ي‬‫م‬ ‫شمار‬
.‫مستئله‬ ‫ک‬‫يت‬ ‫طتبيعی‬ ‫زبان‬ ‫پردازش‬ ‫ئله‬‫ت‬‫مس‬ ‫باشد‬ ‫داشتته‬ ‫پتی‬ ‫در‬ ‫را‬ ‫انگيزی‬AI-
Complete‫سطح‬ ‫تتلزم‬‫س‬‫م‬ ‫تل‬‫م‬‫کا‬ ‫طور‬ ‫ته‬‫ب‬ ‫تن‬‫آ‬ ‫شدن‬ ‫ق‬‫ت‬‫ق‬‫مح‬ ‫ته‬‫ک‬ ‫چرا‬ ،‫د‬‫ت‬‫ي‬‫‌آ‬‌‫ي‬‫م‬ ‫شمار‬ ‫ته‬‫ب‬
.‫است‬ ‫ماشين‬ ‫برای‬ ‫انسان‬ ‫حالت‬ ‫و‬ ‫خارج‬ ‫جهان‬ ‫درک‬ ‫از‬ ‫باليی‬
:‫مفید‬ ‫‌های‬‫ه‬‫‌مای‬‫ن‬‫ب‬:‫مفید‬ ‫‌های‬‫ه‬‫‌مای‬‫ن‬‫ب‬
‫فردوسی‬ ‫دانشگاه‬ ‫وب‬ ‫فناوری‬ ‫آزمایشگاه‬ ‫دانشنامه‬
http://wiki.wtlab.um.ac.ir/index.php
‫کاوی‬ ‫متن‬ ‫و‬ ‫دیتا‬ ‫بیگ‬
http://bigdata-ir.com
‫دهخوارقانی‬ ‫رحیم‬ ‫دکتر‬ ‫با‬ ‫‌خونه‬‫ب‬‫مکت‬ ‫از‬ ‫طبیعی‬ ‫های‬ ‫زبان‬ ‫پردازش‬
https://maktabkhooneh.org/course/285
‫پایتون‬ ‫با‬ ‫فارسی‬ ‫زبان‬ ‫پردازش‬ ‫برای‬ ،‫هضم‬
http://www.sobhe.ir/hazm
‫برتر‬ ‫اندیشه‬ ‫کاوان‬ ‫داده‬
https://www.dadekavan.ir
‫فارسی‬ ‫زبان‬ ‫روی‬ ‫بر‬ ‫کار‬ ‫مقالت‬ ‫و‬ ‫منابع‬ ‫دیگر‬
https://mostafadehghani.com/persian-linguistic-resources

More Related Content

Similar to پردازش زبان طبیعی

UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...
UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...
UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...
Ali Meghdari
 
erp چیست - what is ERP system
erp چیست - what is ERP systemerp چیست - what is ERP system
erp چیست - what is ERP system
samankohnepushi2022
 
هوش مصنوعی
هوش مصنوعیهوش مصنوعی
هوش مصنوعی
karimimasod
 
هوش مصنوعی
هوش مصنوعیهوش مصنوعی
هوش مصنوعی
karimimasod
 

Similar to پردازش زبان طبیعی (20)

اهمیت دانش و خلاقیت در کسب و کار
اهمیت دانش و خلاقیت در کسب و کاراهمیت دانش و خلاقیت در کسب و کار
اهمیت دانش و خلاقیت در کسب و کار
 
UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...
UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...
UTF-8_Farhangestan, Cognitive and Social Robotics-NC-ilovepdf-compressed-ilov...
 
erp چیست - what is ERP system
erp چیست - what is ERP systemerp چیست - what is ERP system
erp چیست - what is ERP system
 
مرکز گناه و اشتباه
مرکز گناه و اشتباهمرکز گناه و اشتباه
مرکز گناه و اشتباه
 
مدیریت دانش
مدیریت دانشمدیریت دانش
مدیریت دانش
 
تیم پراکنده چیست؟
تیم پراکنده چیست؟تیم پراکنده چیست؟
تیم پراکنده چیست؟
 
کمال گرایی (کامل گرایی) - بنیاد نخبگان
کمال گرایی (کامل گرایی) - بنیاد نخبگانکمال گرایی (کامل گرایی) - بنیاد نخبگان
کمال گرایی (کامل گرایی) - بنیاد نخبگان
 
هوش مصنوعی
هوش مصنوعیهوش مصنوعی
هوش مصنوعی
 
هوش مصنوعی
هوش مصنوعیهوش مصنوعی
هوش مصنوعی
 
یکی از بزرگ‌ترین مشکلات OOP اینه که اتفاق نظر بر سر اینکه OOP دقیقا چه چیزی ه...
یکی از بزرگ‌ترین مشکلات OOP اینه که اتفاق نظر بر سر اینکه OOP دقیقا چه چیزی ه...یکی از بزرگ‌ترین مشکلات OOP اینه که اتفاق نظر بر سر اینکه OOP دقیقا چه چیزی ه...
یکی از بزرگ‌ترین مشکلات OOP اینه که اتفاق نظر بر سر اینکه OOP دقیقا چه چیزی ه...
 
شرح پروژه دیتابس لیلیه
شرح پروژه دیتابس لیلیهشرح پروژه دیتابس لیلیه
شرح پروژه دیتابس لیلیه
 
الگوریتم ژنتیک
الگوریتم ژنتیکالگوریتم ژنتیک
الگوریتم ژنتیک
 
الگوریتم ژنتیک
الگوریتم ژنتیکالگوریتم ژنتیک
الگوریتم ژنتیک
 
آشنایی با هوش مصنوعی - جلسه چهارم (فایل pptx)
آشنایی با هوش مصنوعی - جلسه چهارم (فایل pptx)آشنایی با هوش مصنوعی - جلسه چهارم (فایل pptx)
آشنایی با هوش مصنوعی - جلسه چهارم (فایل pptx)
 
فنون مذاکرات تجاری
فنون مذاکرات تجاریفنون مذاکرات تجاری
فنون مذاکرات تجاری
 
طوفان فکری، ساختاردهي و ارزيابي ايده ها، انتخاب
طوفان فکری، ساختاردهي و ارزيابي ايده ها، انتخابطوفان فکری، ساختاردهي و ارزيابي ايده ها، انتخاب
طوفان فکری، ساختاردهي و ارزيابي ايده ها، انتخاب
 
Buyer persona template
Buyer persona templateBuyer persona template
Buyer persona template
 
قرارداد هوشمند چیست؟
قرارداد هوشمند چیست؟قرارداد هوشمند چیست؟
قرارداد هوشمند چیست؟
 
خودشناسی
خودشناسیخودشناسی
خودشناسی
 
سامانه ماندگار
سامانه ماندگارسامانه ماندگار
سامانه ماندگار
 

More from Shiraz LUG

More from Shiraz LUG (20)

منطق فازی
منطق فازیمنطق فازی
منطق فازی
 
بینایی ماشین
بینایی ماشینبینایی ماشین
بینایی ماشین
 
رایانش ابری
رایانش ابریرایانش ابری
رایانش ابری
 
Ubuntu workshop
Ubuntu workshopUbuntu workshop
Ubuntu workshop
 
Python workshop
Python workshopPython workshop
Python workshop
 
امنیت در نرم افزارهای وب
امنیت در نرم افزارهای وبامنیت در نرم افزارهای وب
امنیت در نرم افزارهای وب
 
gnu و fsf پروژه های پیشنهادی
gnu و fsf پروژه های پیشنهادی gnu و fsf پروژه های پیشنهادی
gnu و fsf پروژه های پیشنهادی
 
Embedded Linux
Embedded LinuxEmbedded Linux
Embedded Linux
 
(رمزنگاری (گذشته، حال، آینده
(رمزنگاری (گذشته، حال، آینده(رمزنگاری (گذشته، حال، آینده
(رمزنگاری (گذشته، حال، آینده
 
(اصول پایه ویدئو و صوت دیجیتال (قسمت دوم
(اصول پایه ویدئو و صوت دیجیتال (قسمت دوم(اصول پایه ویدئو و صوت دیجیتال (قسمت دوم
(اصول پایه ویدئو و صوت دیجیتال (قسمت دوم
 
(اصول پایه ویدئو و صوت دیجیتال (قسمت اول
(اصول پایه ویدئو و صوت دیجیتال (قسمت اول(اصول پایه ویدئو و صوت دیجیتال (قسمت اول
(اصول پایه ویدئو و صوت دیجیتال (قسمت اول
 
HTML 5 گرافیک دو بعدی در
HTML 5 گرافیک دو بعدی در HTML 5 گرافیک دو بعدی در
HTML 5 گرافیک دو بعدی در
 
برنامه نویسی مستقل از پلتفرم با استفاده از .NET Core و C#
برنامه نویسی مستقل از پلتفرم با استفاده از .NET Core و C#برنامه نویسی مستقل از پلتفرم با استفاده از .NET Core و C#
برنامه نویسی مستقل از پلتفرم با استفاده از .NET Core و C#
 
فرصت های برنامه نویسی با بلاک چین
فرصت های برنامه نویسی با بلاک چینفرصت های برنامه نویسی با بلاک چین
فرصت های برنامه نویسی با بلاک چین
 
توانمندسازی سازمان های مردم نهاد
توانمندسازی سازمان های مردم نهادتوانمندسازی سازمان های مردم نهاد
توانمندسازی سازمان های مردم نهاد
 
کنترل ورژن گیت
کنترل ورژن گیتکنترل ورژن گیت
کنترل ورژن گیت
 
Lua زبان برنامه نویسی
Lua زبان برنامه نویسی Lua زبان برنامه نویسی
Lua زبان برنامه نویسی
 
R یادگیری ماشین با استفاده از زبان برنامه نویسی
R یادگیری ماشین با استفاده از زبان برنامه نویسیR یادگیری ماشین با استفاده از زبان برنامه نویسی
R یادگیری ماشین با استفاده از زبان برنامه نویسی
 
برای طراحان گرافیک inkscape
 برای طراحان گرافیک inkscape برای طراحان گرافیک inkscape
برای طراحان گرافیک inkscape
 
SMO و SEO آشنایی با
SMO و SEO آشنایی با SMO و SEO آشنایی با
SMO و SEO آشنایی با
 

پردازش زبان طبیعی

  • 1.
  • 3. ‫حروف‬NLP‫چون‬ ‫تى‬‫ت‬‫کلما‬ ‫تف‬‫ف‬‫مخ‬Neuro-Linguistic Programming‫که‬ ‫تت‬‫س‬‫ه‬ ‫تز‬‫ی‬‫ن‬ ‫معنای‬ ‫ه‬‫ت‬‫ب‬-‫تى‬‫م‬‫کل‬ ‫تبى‬‫ص‬‫ع‬ ‫ریزی‬ ‫ه‬‫ت‬‫م‬‫برنا‬.‫قدرت‬ ‫واسطه‬ ‫ه‬‫ت‬‫ب‬ ‫ی‬‫ت‬‫س‬‫ک‬ ‫تر‬‫ه‬ ‫ه‬‫ت‬‫ک‬ ‫تت‬‫س‬‫ه‬ ‫ن‬‫ت‬‫ی‬‫ا‬ ‫تى‬‫ی‬‫ابتدا‬ ‫معناى‬ ‫تتند‬‫س‬‫ه‬ !‫سوال‬ ‫ن‬‫ت‬‫ی‬‫ا‬ ‫حول‬ ‫و‬ ‫تد‬‫ن‬‫ک‬ ‫‌ریزی‬‫ه‬‫برنام‬ ‫را‬ ‫دیگرى‬ ‫ا‬‫ت‬‫ی‬ ‫خود‬ ‫ن‬‫ت‬‫ه‬‫ذ‬ ‫و‬ ‫بگذارد‬ ‫تر‬‫ی‬‫تأث‬ ‌‫ی‬‫تب‬‫ص‬‫ع‬ ‫تیستم‬‫س‬ ‫بر‬ ‫تد‬‫ن‬‫‌توا‬‫ی‬‫م‬ ‫کلم‬ : ‫ه‬‫کتتتتتتتتتتتتتتتتتتتتتتتت‬ ‫گردد‬ ‫ی‬‫متتتتتتتتتتتتتتتتتتتتتتتت‬ ‫کلیدی‬ ‫آیا‬‫موفقیت‬‫زندگى‬ ‫در‬‫شانسى‬‫یا‬ ‫است؟‬‫ت‬‫ل‬‫فرمو‬ ‫و‬ ‫قاعده‬‫ت‬‫ل‬‫فرمو‬ ‫و‬ ‫قاعده‬...‫دارد؟‬ ‫علم‬ ‫موفقیت‬ ‫و‬ ‫تغییرات‬!
  • 4. ‫ی‬‫طبیعت‬ ‫‌های‬‫ن‬‫زبا‬ ‫پردازش‬Natural Language Processing‫حوزه‬ ‫‌های‬‫ه‬‫زیرشاخ‬ ‫از‬ ‫یکی‬ ) (،‫‌پردازد‬‫ی‬‫م‬ ‫انسانی‬ ‫تی‬‫ع‬‫طبی‬ ‫‌های‬‫ن‬‫زبا‬ ‫و‬ ‫تر‬‫ت‬‫کامپیو‬ ‫ن‬‫ت‬‫ی‬‫ب‬ ‫ل‬‫ت‬‫م‬‫تعا‬ ‫ته‬‫ب‬ ‫ته‬‫ک‬ ‫ت‬‫ت‬‫س‬‫ه‬ ‫تنوعی‬‫ص‬‫م‬ ‫هوش‬ ‫و‬ ‫ته‬‫ن‬‫رایا‬ ‫علوم‬nlp ‫نوشتاری‬ ‫زبان‬ ‫و‬ ‫گفتاری‬ ‫زبان‬ ‫پردازش‬ ‫برای‬ ‫تر‬‫ت‬‫کامپیو‬ ‫از‬ ‫تتفاده‬‫س‬‫ا‬‫نوشتاری‬ ‫زبان‬ ‫و‬ ‫گفتاری‬ ‫زبان‬ ‫پردازش‬ ‫برای‬ ‫تر‬‫ت‬‫کامپیو‬ ‫از‬ ‫تتفاده‬‫س‬‫ا‬: .‫عمده‬ ‫و‬ ‫اصلی‬ ‫ش‬‫چالت‬ ‫ت‬‫است‬‫زبان‬ ‫درک‬‫زبان‬ ‫درک‬ ‫ی‬‫ت‬‫ع‬‫طبی‬‫ی‬‫ت‬‫ع‬‫طبی‬‫و‬‫درک‬ ‫تد‬‫ن‬‫فرای‬ ‫کردن‬ ‫ی‬‫ت‬‫ن‬‫ماشی‬‫درک‬ ‫تد‬‫ن‬‫فرای‬ ‫کردن‬ ‫ی‬‫ت‬‫ن‬‫ماشی‬‫و‬‫‌شده‬‫ن‬‫بیا‬ ‫م‬‫ت‬‫ی‬‫مفاه‬ ‫تت‬‫ش‬‫بردا‬‫‌شده‬‫ن‬‫بیا‬ ‫م‬‫ت‬‫ی‬‫مفاه‬ ‫تت‬‫ش‬‫بردا‬‫ت‬‫ت‬‫س‬‫ا‬‫به‬ ‫توان‬ ‫تی‬‫م‬ ‫ته‬‫ن‬‫روزا‬ ‫های‬ ‫کاربرد‬ ‫از‬ ‫و‬ ) | (ِ‫اطلعاتی‬ ‫‌های‬‫ک‬‫بان‬ ‫و‬ ‫وب‬ ‫تفحات‬‫ص‬ ‫تتوجو‬‫س‬‫ج‬ ، ‫ترگمان‬ ‫لیت‬‫ت‬‫س‬‫ترن‬ ‫ل‬‫ت‬‫گ‬‫گو‬ ‫و‬ ‫گ‬‫ت‬‫ن‬‫بی‬ ‫تر‬‫گ‬‫دی‬ ‫زبان‬ ‫ته‬‫ب‬ ‫تی‬‫ن‬‫زبا‬ ‫از‬ ‫ته‬‫م‬‫ترج‬ ‫نوشتاری‬( ) | (‫و‬ ‫اسیستنت‬ ‫ل‬‫ت‬‫گ‬‫گو‬ ،‫ل‬‫ت‬‫پ‬‫ا‬ ‫تیری‬‫س‬ ،‫زون‬‫ت‬‫ا‬‫آم‬ ‫ا‬‫ت‬‫س‬‫الک‬ ‫مجازی‬ ‫های‬ ‫تتیار‬‫س‬‫د‬ ‫‌جو‬‫ی‬‫ت‬‫س‬‫پار‬ ‫گ‬‫ت‬‫ن‬‫بی‬ ،‫ل‬‫ت‬‫گ‬‫گو‬ ‫ترچ‬‫س‬ .)‫‌بی‬‫س‬‫بیک‬ ‫سامسونگ‬
  • 5. ‫و‬ ‫تجزیه‬ ‫مورد‬ ‫را‬ ‫زبان‬ ‫داریم‬ ‫قصد‬ ‫سطح‬ ‫چهار‬ ‫در‬ ‫ما‬ : ‫دهیم‬ ‫قرار‬ ‫تحلیل‬ Word, Syntax, Semantic, Discourse ‫آن‬ ‫به‬ ‫طبیعی‬ ‫های‬ ‫زبان‬ ‫پردازش‬ ‫در‬ ‫که‬ ‫هایی‬ ‫مهارت‬ : ‫دارید‬ ‫احتیاج‬ ‫از‬ ‫درکی‬‫ها‬ ‫ماتریس‬ ‫و‬ ‫وکتور‬ ،‫خطی‬ ‫جبر‬ ‫احتمالت‬ ‫و‬ ‫آمار‬ ‫مفهموم‬ ‫‌گرا‬‫ئ‬‫ش‬ ‫زبان‬ ‫یک‬(‫‌شارپ‬‫ی‬‫س‬|‫پایتون‬|). . .
  • 6. NNaïveaïve BBayesayes CClassifers,lassifers, LLanguageanguage MModeling,odeling, SStatisticaltatistical PParsing,arsing, SStemming,temming, WSDWSD (word sense(word sense disambiguity)disambiguity),, GGrammarrammar IInduction,nduction, IInformationnformation EExtraction,xtraction, SSpellingpelling CCorrection,orrection, SSentimententiment AAnalysisnalysis
  • 7. ‫دهه‬ ‫ته‬‫ب‬ ‫تی‬‫ع‬‫طبی‬ ‫زبان‬ ‫پردازش‬ ‫ته‬‫چ‬‫تاریخ‬50‫و‬ ‫تگ‬‫ن‬‫توری‬ ‫تن‬‫ل‬‫آ‬‫معروف‬ ‫مقاله‬ ‫در‬ ‫ته‬‫ک‬ ‫گرده‬ ‫تی‬‫م‬ ‫بر‬ ‫به‬ ‫امروزه‬ ‫کته‬ ‫تورینتگ‬ ‫ش‬‫آزمایت‬ ‫درباره‬ ،‫خود‬ ،‫‌شود‬‫ی‬‫م‬ ‫شناخته‬ ‫هوشمندی‬ ‫ملک‬ ‫عنوان‬ .‫ال‬‫ت‬‫س‬ ‫همچنیتن‬ ‫بود‬ ‫کرده‬ ‫عوان‬۱۹۵۷‫کتاب‬ ‫نحوی‬ ‫اختارهای‬‫ستتت‬‫ر‬‫اثتتت‬‫چامسکی‬ ‫نوام‬ .‫شد‬ ‫ارائه‬ ‫آمریکایی‬ ‫جوان‬ ‫‌شناس‬‫ن‬‫زبا‬ ‫‌های‬‫ل‬‫سا‬ ‫تن‬‫ی‬‫ب‬۱۹۲۳‫و‬۱۹۵۷‫تی‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫هدف‬ ،» «‫کشف‬ ‫روندهای‬ ‫تل‬‫ی‬‫تکم‬» «‫کشف‬ ‫روندهای‬ ‫تل‬‫ی‬‫تکم‬ ‫تا‬ ‫ازد‬‫ت‬‫س‬ ‫تی‬‫م‬ ‫قادر‬ ‫را‬ ‫‌شناس‬‫ن‬‫زبا‬ ‫ته‬‫ک‬ ‫تول‬‫ص‬‫ا‬ ‫از‬ ‫‌ای‬‫ه‬‫مجموع‬ ‫تن‬‫ت‬‫یاف‬ ‫تی‬‫ن‬‫یع‬ ‫بود؛‬ ‫گفته‬ ‫زبان‬ ‫تل‬‫ه‬‫ا‬ ‫‌گوی‬‫ن‬‫تخ‬‫س‬ ‫تک‬‫م‬‫ک‬ ‫ته‬‫ب‬ ‫ته‬‫ک‬ ‫اطلعات‬ ‫‌ای‬‫ه‬‫تود‬ ‫از‬ ‫را‬ ‫تی‬‫ن‬‫زبا‬ ‫تتور‬‫س‬‫د‬ ‫توصیفی‬ ‫ته‬‫ب‬ ‫‌توان‬‫ی‬‫م‬ ‫تت‬‫س‬‫ا‬ ‫تق‬‫ی‬‫طر‬ ‫تن‬‫ی‬‫ا‬ ‫ته‬‫ب‬ ‫و‬ ‫کنتد‬ ‫تتخراج‬‫س‬‫ا‬ ‫و‬ ‫تف‬‫ش‬‫ک‬ ،‫شده‬ .‫یافت‬ ‫تت‬‫س‬‫د‬ ‫زبان‬ ‫از‬ ‫کامل‬ ‫و‬ ‫تی‬‫ن‬‫عی‬‫چامسکی‬‫چامسکی‬‫هدف‬ ‫این‬ ‫ته‬‫ک‬‌‫ن‬‫ای‬ ‫به‬ ‫اعتقاد‬ ‫با‬ .‫‌کند‬‫ی‬‫م‬ ‫وارد‬ ‫آن‬ ‫بر‬ ‫را‬ ‫نقدهایتی‬ ‫ش‬‫کتابت‬ ‫در‬ ،‫استت‬ ‫محدود‬ ‫و‬ ‫‌گرایانته‬‫ن‬‫آرما‬ ‫ته‬‫ک‬ ‫تل‬‫ی‬‫دل‬ ‫تن‬‫ی‬‫ا‬ ‫ته‬‫ب‬ ‫ته‬‫ن‬‫‌گرایا‬‫ن‬‫آرما‬‫برای‬ ‫‌ناپذیر‬‫ه‬‫خدش‬ ‫قواعدی‬ ‫م‬‫ت‬‫ی‬‫بتوان‬ ‫ندارد‬ ‫امکان‬‫برای‬ ‫‌ناپذیر‬‫ه‬‫خدش‬ ‫قواعدی‬ ‫م‬‫ت‬‫ی‬‫بتوان‬ ‫ندارد‬ ‫امکان‬ ‫کنیم‬ ‫تع‬‫ض‬‫و‬ ‫اطلعات‬ ‫‌ای‬‫ه‬‫تود‬ ‫از‬ ‫تل‬‫م‬‫کا‬ ‫تتور‬‫س‬‫د‬ ‫تک‬‫ی‬ ‫تتخراج‬‫س‬‫ا‬‫کنیم‬ ‫تع‬‫ض‬‫و‬ ‫اطلعات‬ ‫‌ای‬‫ه‬‫تود‬ ‫از‬ ‫تل‬‫م‬‫کا‬ ‫تتور‬‫س‬‫د‬ ‫تک‬‫ی‬ ‫تتخراج‬‫س‬‫ا‬.‫این‬ ‫تت‬‫ی‬‫محدود‬ ‫آنچه‬ ‫تد؛‬‫ن‬‫نبود‬ ‫برخوردار‬ ‫تی‬‫ی‬‫‌گو‬‫ش‬‫پی‬ ‫قدرت‬ ‫از‬ ‫ته‬‫ک‬ ‫تت‬‫س‬‫ا‬ ‫تل‬‫ی‬‫دل‬ ‫تن‬‫ی‬‫ا‬ ‫ته‬‫ب‬ ‫تتورها‬‫س‬‫د‬ ‫پیشگویی‬ ‫تد‬‫ه‬‫د‬ ‫رخ‬ ‫بود‬ ‫تن‬‫ک‬‫مم‬ ‫را‬ ‫ته‬‫چ‬‫آن‬ ‫و‬ ‫تد‬‫ن‬‫‌کرد‬‫ی‬‫م‬ ‫‌بندی‬‫ه‬‫تت‬‫س‬‫د‬ ‫بود‬ ‫داده‬ ‫رخ‬ ‫را‬ .‫‌ای‬‫ه‬‫فرضی‬ ‫یا‬ ‫نظریته‬ ‫‌عنوان‬‫ه‬‫ب‬ ‫بایتد‬ ‫دستتور‬ ‫بود‬ ‫معتقتد‬ ‫کی‬‫چامست‬ ‫‌کردند‬‫ی‬‫نم‬ .ٔ‫نظریه‬ ‫کته‬ ‫بود‬ ‫گونته‬ ‫ایتن‬ ‫و‬ ‫کند‬ ‫بیان‬ ‫را‬ ‫زبان‬ ‫کارکرد‬ ‫چگونگتی‬ ‫کته‬ ‫باشتد‬ ‫خود‬ ‫معروف‬‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬‫د‬‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬‫د‬.‫د‬ ‫کرد‬ ‫بیان‬ ‫را‬‫رویکردهای‬ ‫از‬ ‫یکی‬ ‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬‫رویکردهای‬ ‫از‬ ‫یکی‬ ‫تی‬‫ش‬‫زای‬ ‫تتور‬‫س‬ ‫از‬ ‫توصیف‬ ‫شیوه‬ ‫و‬ ‫زبان‬ ‫تتور‬‫س‬‫د‬ ‫از‬ ‫‌ای‬‫ه‬‫گون‬ ‫شامل‬ ‫ته‬‫ک‬ ‫است‬ ‫زبان‬ ‫نحو‬ ‫تی‬‫س‬‫برر‬‫از‬ ‫توصیف‬ ‫شیوه‬ ‫و‬ ‫زبان‬ ‫تتور‬‫س‬‫د‬ ‫از‬ ‫‌ای‬‫ه‬‫گون‬ ‫شامل‬ ‫ته‬‫ک‬ ‫است‬ ‫زبان‬ ‫نحو‬ ‫تی‬‫س‬‫برر‬ . ‫باشتد‬ ‫متی‬ ‫زبان‬ ‫اختار‬‫ت‬‫س‬. ‫باشتد‬ ‫متی‬ ‫زبان‬ ‫اختار‬‫ت‬‫س‬‫منبع‬ ‫کته‬ ‫استت‬ ‫آتن‬ ‫بر‬ ‫فرض‬ ،‫رویکرد‬ ‫ایتن‬ ‫در‬‫منبع‬ ‫کته‬ ‫استت‬ ‫آتن‬ ‫بر‬ ‫فرض‬ ،‫رویکرد‬ ‫ایتن‬ ‫در‬ ‫برای‬ ‫ذاتی‬ ‫ازوکارهای‬‫ت‬‫س‬ ‫دارای‬ ‫ان‬‫ت‬‫انس‬ ‫مغتز‬ ‫و‬ ‫استت‬ ‫ژنتیکتی‬ ،‫زبان‬ ‫یادگیری‬‫برای‬ ‫ذاتی‬ ‫ازوکارهای‬‫ت‬‫س‬ ‫دارای‬ ‫ان‬‫ت‬‫انس‬ ‫مغتز‬ ‫و‬ ‫استت‬ ‫ژنتیکتی‬ ،‫زبان‬ ‫یادگیری‬ .‫است‬ ‫زبان‬ ‫یادگیری‬.‫است‬ ‫زبان‬ ‫یادگیری‬
  • 8. ‫های‬ ‫چالش‬ ‫از‬ ‫بعضی‬nlp:‫هستند‬ ‫درگیر‬ ‫آن‬ ‫با‬ ‫رایانه‬ ‫علوم‬ ‫دانشمندان‬ ‫که‬ :‫شده‬ ‫حل‬ ‫زیادی‬ ‫مقدار‬ ‫که‬ ‫هایی‬ ‫چالش‬ Spam detection Let’s go to Agra Let’s Buy V1AGRA ✓! ✗... Part-of-speech (POS) tagging ADJ ADJ NOUN VERB ADV Colorless green ideas sleep furiously Named entity recognition (NER) PERSON ORG LOC ‫بزرگ‬ ‫شهر‬ ‫سومین‬ ‫پرادش‬ ‫اوتار‬ ‫ایالت‬ ‫در‬ ‫هندوستان‬ ‫کشور‬ ‫در‬ !‫شده‬ ‫واقع‬ ‫آن‬ ‫در‬ ‫‌محل‬‫ج‬‫تا‬ ‫که‬
  • 9. Coreference resolution Akbar told Asqar he shouldn’t run again : ‫داشتیم‬ ‫خوبی‬ ‫پیشرفت‬ ‫حال‬ ‫به‬ ‫تا‬ ‫که‬ ‫هایی‬ ‫چالش‬ Word Sense Disambiguation(WSD) I need new batteries for my mouse ?
  • 10. positive negative But the waiter ignored us for like 20 Sentiment Analysis Best roast chicken in San Francisco !
  • 11. Parsing I can see cooler from the window Machine translation (MT) 第 25 届上海国际电影节开幕 In 25th of the tir I have a NLP presentation Information extraction (IE) You’re invited to our LUG session, doshanbe tir 25 at 16:30 LUG Tir 25th
  • 12. : ‫سخته‬ ‫خیلی‬ ‫که‬ ‫هنوز‬ ‫هایی‬ ‫چالش‬ ‫و‬ Question answering (QA) Q. How effective is ibuprofen in reducing fever in patients with acute febrile illness ? XYZ acquired ABC yesterday ABC has been taken over by XYZ Paraphrase The Dow Jones is up The S&P 500 jumped Housing (Dollar) prices Economy is good Summarizatio n ‫چگونه‬ibuprofen‫بیماری‬ ‫به‬ ‫مبتل‬ ‫بیماران‬ ‫تب‬ ‫کاهش‬ ‫در‬ ‫است؟‬ ‫مؤثر‬ ‫حاد‬ ‫تب‬
  • 13. Where is the separation playing in Shiraz?? Saadi cinema at 7:30Do you want a?? DialogDialog
  • 14. ،‫سخته‬ ‫طبیعی‬ ‫‌های‬‫ن‬‫زبا‬ ‫پردازش‬. . . ‫چرا‬ At last, a computer that understands you like your mother It understands you as well as your mother, understands you It understands (that) you like your mother It understands you as well as it understands your mother 1 2 3 . . . ‫ابهام‬. . . ‫ابهام‬
  • 15. Firm XYZ is a full service advertising agency specializing in direct and in-teractive marketing. Located in Bigtown CA, Firm XYZ is looking for an As-sistant Account Manager to help manage and coordinate interactive marketing initiatives for a marquee automative account. Experience in online marketing, automative and/or the advertising field is a plus. Assistant Account Manager Re-sponsibilities Ensures smooth implementation of programs and initiatives Helps manage the delivery of projects and key client deliverables ... Compensation: $50,000-$80,000 Hiring Organization: Firm XYZ INDUSTRY POSITION LOCATION COMPANY SALARY Advertising Assistant Account Manager Bigtown, CA Firm XYZ $50,000-$80,000 ‫اطلعات‬ ‫استخراج‬
  • 16. At the semantic (meaning) level They put money in the bank buried in mud ? ‫ی‬‫ا‬‫ن‬‫ع‬‫م‬ ‫ه‬‫م‬‫ل‬‫ک‬
  • 17. ‫طبیعی‬ ‫های‬ ‫زبان‬ ‫پردازش‬ ‫دنیای‬ ‫در‬‫رویکرد‬ ‫دو‬:‫دارد‬ ‫وجود‬ ‫مسئله‬ ‫حل‬ ‫برای‬ ‫کلی‬ :‫اول‬ ‫رویکرد‬:‫اول‬ ‫رویکرد‬Symbolic ApproachSymbolic Approach ( ‫های‬ ‫روش‬rule base)‫دانش‬ ‫کامپیوتر‬ ‫به‬ ‫دستی‬ ‫صورت‬ ‫به‬ ‫و‬ ‫هستند‬ ‫زبان‬ ‫و‬ ‫نحو‬ ‫دستور‬ :‫کنیم‬ ‫می‬ ‫سازی‬ ‫پیاده‬ ‫آن‬ ‫برای‬ ‫را‬ ‫زبان‬ ‫قوانین‬ ‫و‬ ‫دهیم‬ ‫می‬ ‫مزیت‬. :‫دارد‬ ‫بالیی‬ ‫دقت‬ ‫عیب‬:‫تمام‬ ‫پیشبینی‬ ‌،‫است‬ ‫سخت‬ ‫حالت‬ ‫همه‬ ‫برای‬ ‫اطلعات‬ ‫کردن‬ ‫وارد‬ ‫هستند‬ ‫دستی‬ ‫چون‬ !‫زبانند‬ ‫به‬ ‫وابسته‬ ‫و‬ ‫است‬ ‫ممکن‬ ‫غیر‬ ‫حالت‬ :‫دوم‬ ‫رویکرد‬:‫دوم‬ ‫رویکرد‬Statistical ApproachStatistical Approach ‫فرمول‬ ‫و‬ ‫ریاضیات‬ ‫با‬ ‫همراه‬ ‫‌ست‬‫ی‬‫آمار‬ ‫روش‬ ‫یک‬ ‫مزیت‬. :‫است‬ ‫زبان‬ ‫از‬ ‫مستقل‬ ،‫کند‬ ‫می‬ ‫استنتاج‬ ‫ما‬ ‫برای‬ ‫را‬ ‫قوانین‬ ‫اتوماتیک‬ ‫صورت‬ ‫به‬ ‫عیب‬. :‫کند‬ ‫نمی‬ ‫عمل‬ ‫خوبی‬ ‫به‬ ‫روش‬ ،‫باشیم‬ ‫نداشته‬ ‫خوبی‬ ‫کورپس‬ ‫اگر‬
  • 18. ‫و‬ ‫محتوا‬ ‫از‬ ‌،‫همشهری‬ ‫کورپس‬ ‫همشهری‬ ‫روزنامه‬ ‫خود‬ ‫مطالب‬ ،‫تی‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫در‬‫تی‬‫ن‬‫مت‬ ‫پیکره‬‫ا‬‫ت‬‫ی‬‫تی‬‫ن‬‫واژگا‬ ‫پیکره‬: (‫ار‬‫ت‬‫ص‬‫‌اخت‬‫ه‬‫ب‬‫پیکره‬( )‫به‬ :‫انگلیستی‬text corpus, corpus)‫زبانی‬ ‫‌های‬‫ه‬‫داد‬ ‫از‬ ‫خام‬ ‫‌ای‬‫ه‬‫مجموع‬ ‫بته‬ ‫بهره‬ ‫آن‬ ‫از‬ ‫زبان‬ ‫تل‬‫ی‬‫تحل‬ ‫و‬ ‫یف‬‫ت‬‫ص‬‫تو‬ ‫در‬ ‫‌توان‬‫ی‬‫م‬ ‫ته‬‫ک‬ ‫‌شود‬‫ی‬‫م‬ ‫ته‬‫ت‬‫گف‬ ‫گفتاری‬ ‫ا‬‫ت‬‫ی‬ ‫نوشتاری‬ .‫ایتالیایی‬ ‫واژه‬ ‫از‬ ‫کورپس‬ ‫گرفت‬Corpora.‫آید‬ ‫می‬ ‫با‬ ‫س‬‫کورپتتت‬ ‫ک‬‫یتتت‬ ،‫خوان‬ ‫ن‬‫ت‬‫بیژتت‬ 2.600.000‫شده‬ ‫گذاری‬ ‫تگ‬ ‫ته‬‫م‬‫کل‬ ‫ساخته‬ ‫روزنامته‬ ‫متون‬ ‫از‬ ‫پیکره‬ ‫ایتن‬ .‫است‬ ‫شده‬ ‫تایمز‬ ‫نیویورک‬ ‫و‬ ‫پست‬ ‫واشنگتن‬ ‫کورپس‬
  • 19. ( ‫ه‬‫ت‬‫ی‬‫تجز‬ ‫ت‬‫ت‬‫خ‬‫در‬parse tree)‫و‬ ‫‌ها‬‫ه‬‫جمل‬ ‫ه‬‫ت‬‫ی‬‫تجز‬ ‫برای‬ ‫ویری‬‫ت‬‫ص‬‫ت‬ ‫ی‬‫ت‬‫ش‬‫رو‬ ،‫ی‬‫ت‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫تر‬‫د‬ ، .‫‌ای‬‫ه‬‫ریش‬ ‫رختی‬‫ت‬‫د‬ ‫نموداری‬ ‫مشتتق‬ ،‫پارس‬ ‫ت‬‫درخت‬ ‫ت‬‫است‬ ‫ر‬‫کوچکتت‬ ‫اجزای‬ ‫ه‬‫بت‬ ‫ا‬‫ت‬‫‌ه‬‫ت‬‫عبار‬ ) ( ) (‫زبان‬ ‫دستور‬ ‫ا‬‫ت‬‫ب‬ ‫مطابق‬ ‫را‬ ‫رشته‬ ‫زنجیره‬ ‫یک‬ ‫نحوی‬ ‫اختار‬‫ت‬‫س‬ ‫که‬ ‫است‬ ‫منظمی‬ ‫و‬ ‫بنیادی‬ . ) (‫‌کند‬‫ی‬‫م‬ ‫ارائه‬ ‫متن‬ ‫از‬ ‫مستقل‬ ‫فرض‬ ‫با‬ ‫گرامر‬ S=sentence, VP=verb phrase, NP=noun phrase, PP=prepositional
  • 20. ‫لزم‬ ‫فعل‬sleeps ‫دارند‬ ‫نیاز‬ ‫مفعول‬ ‫به‬ ‫که‬ ‫افعالی‬ ‫متعدی‬ ‫فعل‬sees ‫ندارند‬ ‫نیاز‬ ‫مفعول‬ ‫به‬ ‫الگوریتم‬CFG ‫و‬PCFG
  • 22.
  • 23. !‫است‬ ‫زبان‬ ‫از‬ ‫توصیفی‬ ،‫زبان‬ ‫کردن‬ ‫مدل‬‫آماری‬ ‫توزیع‬ ‫یک‬‫روی‬ ‫بر‬‫کلمات‬ ‫توالی‬.‫است‬ Language Modeling : .‫مثل‬ ‫است‬ ‫جمله‬ ‫یک‬ ‫به‬ ،‫احتمال‬ ‫میزان‬ ‫دادن‬ ،‫هدف‬ ‫و‬ :‫ماشینی‬ ‫ترجمه‬ ‫در‬ :‫لمات‬‫ت‬‫ک‬ ‫تصحیح‬ :‫گفتار‬ ‫تصحیح‬ ‫در‬ P(high winds tonite) > P(large winds tonite) P(about fifteen minutes from) > P(about fifteen minuets from) P(I saw a van) >> P(eyes awe of an) ‫فرانسوی‬ ‫عامیانه‬ ‫رقص‬ ‫نوع‬ ‫یک‬ ‫منوئه‬ ‫یا‬ ‫مینوئت‬ ‫متحده‬ ‫ایالت‬ ‫تر‬‫د‬ ‫سرگرمی‬ ‫صنعت‬ ‫تر‬‫د‬ ‫تبلیغات‬
  • 24. Probabilistic Language Modeling . :‫کلمات‬ ‫از‬ ‫ای‬ ‫زنجیره‬ ‫یا‬ ‫جمله‬ ‫آمدن‬ ‫احتمال‬ ‫محاسبه‬ ‫هدف‬ P(W) = P(w 1 ,w 2 ,w 3 ,w 4 ,w 5 …,w n ) . :‫جمله‬ ‫در‬ ‫بعدی‬ ‫کلمه‬ ‫آمدن‬ ‫محاسبه‬ ‫مرتبط‬ ‫وظایف‬ P(W5 | w 1 ,w 2 ,w 3 ,w 4 ) (‫قوانین‬ ‫محاسبه‬ ‫طریقه‬chain rule:) P(its, water, is, so, transparent, that) P(x 1 ,x 2 ,x 3 ,...,x n ) = P(x 1 )P(x 2 |x 1 )P(x 3 | x 1 , x 2 )...P(x n |x 1 ,...,x n-1 ) P(w i | w 1 w 2 ... w i-1 ) P(“its water is so transparent”) = P(its) × P(water|its) × P(is|its water) × P(so|its water is) × P(transparent|its water is so)
  • 25. ‫؟‬ ‫بسنجیم‬ ‫را‬ ‫احتمالت‬ ‫این‬ ‫صحت‬ ‫چگونه‬ ‫حال‬ P(the | its water is so transparent that) = Count(its water is so transparent that the) Count(its water is so transparent that)No! Too many possible sentences We’ll never see enough data for estimating these ‫مارکوف‬ ‫آندری‬ ‫روسی‬ ‫‌دان‬‫ی‬‫ریاض‬ ‫زمینه‬ ‫در‬ ‫احتمالت‬ ‫نظریه‬ ‫وابستگی‬ ‫خودش‬ ‫به‬ ‫نزدیک‬ ‫کلمات‬ ‫به‬ ‫فقط‬ ‫اصطلح‬ ‫در‬ ‫‌ای‬‫ه‬‫کلم‬ ‫هر‬ ‫کلمات‬ ‫تمامی‬ ‫مشاهده‬ ‫به‬ ‫نیازی‬ ‫و‬ ‫دارد‬!‫نیست‬ the torvalds laughs P(the torvalds laughs)= P (the| start) * (torvalds|start,the) * (laughs|the,torvalds) * (stop| torvalds,laughs) ‫با‬ ‫که‬ ‫جملتی‬ ‫احتمال‬the torvalds‫باشند‬ ‫شده‬ ‫شروع‬ ‫با‬ ‫که‬ ‫آنهایی‬ ‫تعداد‬the‫شوند‬ ‫می‬ ‫زوع‬
  • 26. ،‫احتمالت‬ ‫و‬ ‫ی‬‫ت‬‫ش‬‫رایان‬ ‫ی‬‫ت‬‫س‬‫‌شنا‬‫ن‬‫زبا‬ ‫‌های‬‫ه‬‫حوز‬ ‫در‬n-gram‫از‬ ‫ته‬‫ت‬‫س‬‫پیو‬ ‫‌ای‬‫ه‬‫دنبال‬ ‫ا‬‫ت‬‫ه‬nٔ‫دنباله‬ ‫تک‬‫ی‬ ‫در‬ ‫م‬‫ت‬‫ل‬‫ق‬ .‫‌باز‬‫ت‬‫جف‬ ‫یا‬ ،‫ته‬‫ژ‬‫وا‬ ،‫حرف‬ ،‫ا‬‫ت‬‫ج‬‫ه‬ ،‫واج‬ ‫تد‬‫ن‬‫‌توان‬‫ی‬‫م‬ ‫اقلم‬ ،‫کاربردشان‬ ‫ه‬‫ت‬‫ب‬ ‫تته‬‫س‬‫ب‬ ‫تتند‬‫س‬‫ه‬ ‫کلم‬ ‫ا‬‫ت‬‫ی‬ ‫ن‬‫ت‬‫ت‬‫م‬ ‫از‬ ‫ن‬‫ت‬‫ی‬‫مع‬ .‫مدل‬ ‫باشند‬n-gram‫به‬ ‫‌ای‬‫ه‬‫دنبال‬ ‫در‬ ‫بعدی‬ ‫م‬‫ت‬‫ل‬‫ق‬ ‫ی‬‫ت‬‫ن‬‫‌بی‬‫ش‬‫پی‬ ‫برای‬ ‫ه‬‫ت‬‫ک‬ ‫تت‬‫س‬‫ا‬ ‫ی‬‫ت‬‫ت‬‫احتمال‬ ‫ی‬‫ت‬‫ن‬‫زبا‬ ‫مدل‬ ‫ی‬‫ت‬‫ع‬‫نو‬ ٔ‫مرتبه‬ ‫شکل‬(n − 1).‫‌رود‬‫ی‬‫م‬ ‫کار‬ ‫به‬ ‫مارکوف‬ ‫ه‬‫ت‬‫بت‬n-gram) ( ) (‫و‬ ، ‫‌گرم‬‫ی‬‫با‬ ‫دوگرم‬ ، ‫‌گرم‬‫ن‬‫وا‬ ‫‌گرم‬‫ک‬‫ت‬ ‫ترتیب‬ ‫ه‬‫ت‬‫بت‬ ‫ه‬‫ت‬‫ست‬ ‫و‬ ،‫دو‬ ،‫ک‬‫یتت‬ ‫‌های‬‫ه‬‫انداز‬ ‫ا‬‫بتت‬ . ) (‫‌یابد‬‫ی‬‫م‬ ‫ادامه‬ ‫منوال‬ ‫همین‬ ‫به‬ ‫نامگذاری‬ ‫و‬ ‫‌شود‬‫ی‬‫م‬ ‫گفته‬ ‫نیز‬ ‫‌گرم‬‫ی‬‫تر‬ ‫‌گرم‬‫ه‬‫س‬
  • 29. Types of spelling errors Non-word Errors graffe => giraffe Real-word Errors Typographical errors three => there Cognitive Errors (homophones) piece => peace too => two ‫پیشنهاد‬ ‫دادن‬ ‫با‬ ‫که‬ Suggest a correction ‫از‬ ‫لیستی‬ ‫یا‬ ‫و‬ ‫تصحیح‬ ‫پیشنهادی‬ ‫کلمات‬ Suggestion lists .‫شود‬ ‫می‬ ‫برطرف‬
  • 30. Non-word spelling error detection Any word not in a dictionary is an error The larger the dictionary the better Non-word spelling error correction Generate candidates real words that are similar to error Choose the one which is best Shortest weighted edit distance Highest noisy channel probability
  • 31. The noisy channel model is a framework used in spell checkers, question answering, speech recognition, and machine translation. In this model, the goal is to find the intended word given a word where the letters have been scrambled in some manner Insertion Deletion Substitution Transpositio n
  • 32. Words within 1 of acress ٪80‫ها‬ ‫ارور‬1‫حرفی‬ ‫مابقی‬ ‫اکثر‬ ‫حدودا‬ ‫و‬ ‫دوحرفی‬‫هستند‬
  • 33.
  • 34.
  • 36.
  • 37. ‫بیشترین‬ ‫که‬ ‫ای‬ ‫رشته‬P(w)‫ت‬‫د‬‫دار‬ ‫را‬ ) (‫کورپس‬ ‫به‬ ‫توجه‬ ‫با‬ ‫شود‬ ‫می‬ ‫انتخاب‬
  • 38. : (‫تی‬‫س‬‫انگلی‬ ‫ته‬‫ب‬ ‫ته‬‫م‬‫کل‬ ‫ام‬‫ت‬‫س‬‫اق‬POS‫ا‬‫ت‬‫ی‬PoS‫یا‬Part of speech)‫‌ها‬‫ه‬‫واژ‬ ‫‌بندی‬‫ه‬‫ت‬‫ت‬‫دس‬ ‫از‬ ‫‌ای‬‫ه‬‫شیو‬ ‫بته‬ ‫براساس‬ ‫ا‬‫ت‬‫‌ه‬‫ه‬‫واژ‬ ،‫ن‬‫آت‬ ‫ق‬‫برطبت‬ ‫کته‬ ‫‌شود‬‫ی‬‫م‬ ‫گفتته‬ ‫‌بندی‬‫ه‬‫طبق‬ ‫‌کنند‬‫ی‬‫م‬ ‫ا‬‫ت‬‫ت‬‫ایف‬ ‫ن‬‫ت‬‫ت‬‫مت‬ ‫در‬ ‫ه‬‫ت‬‫ت‬‫ک‬ ‫ی‬‫ت‬‫ت‬‫نقش‬ .‫کشیش‬ ‫یتک‬ ‫ط‬‫توست‬ ‫ابتدا‬ ‫شیوه‬ ‫ایتن‬ ‫‌شوند‬‫ی‬‫م‬ ،‫اسم‬ ِ‫گروهت‬ ‫هشتت‬ ‫بته‬ ‫را‬ ‫ا‬‫ت‬‫‌ه‬‫ه‬‫واژ‬ ‫او‬ ‫شتد؛‬ ‫انجام‬ ‫و‬ ‫پیوندواژه‬ ،‫تت‬‫ش‬‫برنه‬ ،‫تد‬‫ی‬‫ق‬ ،‫ر‬‫ت‬‫ی‬‫ضم‬ ،‫تل‬‫ع‬‫ف‬ ،‫تفت‬‫ص‬ .‫کرد‬ ‫‌بندی‬‫م‬‫تقسی‬ ‫ندا‬ ‫حرف‬
  • 39. Parts-of-speech are often ambiguous I have to go there I had a go at it verb nou nIf the previous word is “to”, then it’s a verb If the previous word is “a”, then it’s a noun If the next word is Writing rules manually is impossible ‫ی‬‫ر‬‫و‬‫ت‬‫س‬‫د‬ ‫ه‬‫ا‬‫گ‬‫ی‬‫ا‬‫ج‬ ‫ه‬‫ت‬‫ب‬ ‫ه‬‫ت‬‫ج‬‫و‬‫ت‬ ‫ی‬‫ا‬‫ج‬ ‫ه‬‫ت‬‫ب‬ ‫ه‬‫ت‬‫ب‬ ‫ه‬‫ت‬‫ل‬‫م‬‫ج‬ ‫ر‬‫د‬ ‫ه‬‫ت‬‫م‬‫ل‬‫ک‬ ‫ش‬‫ت‬‫ق‬‫ن‬ ‫ه‬‫ج‬‫و‬‫ت‬ ‫ن‬‫ت‬‫آ‬ !‫د‬‫و‬‫ش‬ ‫ی‬‫م‬ ...
  • 40.
  • 41.
  • 42. ( -‫‌یابی‬‫ه‬‫ریش‬ ‫استمینگ‬stemming) ‫در‬‫مورفولوژتی‬( ) - (‫یا‬ ‫واژگان‬ ‫ش‬‫کاهت‬ ‫د‬‫فراینت‬ ‫زبان‬ ‫فرم‬ ‫ویژته‬ ‫ت‬‫شناخت‬ ‫ی‬‫‌شناست‬‫ت‬‫ریخ‬ ‫اوقات‬ ‫ی‬‫ت‬‫ض‬‫بع‬‫تق‬‫ت‬‫مش‬)‫د‬‫ت‬‫ن‬‫گوی‬ ‫ی‬‫ت‬‫م‬ ‫ا‬‫ت‬‫ه‬‫آن‬ ‫شده‬‫می‬ ‫ته‬‫ژ‬‫وا‬ ‫تک‬‫ی‬ ‫ته‬‫ش‬‫ری‬ ‫ا‬‫ت‬‫ی‬ ‫ته‬‫ی‬‫پا‬ ‫ته‬‫ب‬ ‫ر‬‫ت‬‫گ‬‫دی‬ ‫تی‬‫ت‬‫عبار‬ ‫ته‬‫ب‬ . ‫گویند‬ Conflation Methods Manual Automatic (stammers) Affix Removal Successor Variety Table Lookup n- grarn
  • 43.  Table lookup approach :‫ت‬‫د‬‫رویکر‬‫تمامی‬ ‫ه‬‫ریشت‬ ‫از‬ ‫داده‬ ‫پایگاه‬ ‫ک‬‫یت‬ ‫کلمات‬ ‫ریشه‬ ‫و‬ ‫تم‬‫ی‬‫کن‬ ‫ایجاد‬ ‫تن‬‫ک‬‫مم‬ ‫کلمات‬ .‫کنیم‬ ‫پیدا‬ ‫داده‬ ‫پایگاه‬ ‫این‬ ‫در‬ ‫مقایسه‬ ‫با‬ ‫را‬ :‫تکلت‬‫ش‬‫م‬‫زبان‬ ‫برای‬ ‫بیسی‬ ‫ا‬‫ت‬‫ت‬‫یت‬‫ت‬‫د‬ ‫ن‬‫ت‬‫ت‬‫چنی‬ .‫ندارد‬ ‫وجود‬ ‫ها‬ ‫زبان‬ ‫سایر‬ ‫یا‬ ‫و‬ ‫انگلیسی‬ ‫و‬ ،‫است‬ ‫زیاد‬ ‫نگهداری‬ ‫و‬ ‫‌وجو‬‫ت‬‫ت‬‫س‬‫ج‬ ‫ربار‬‫ت‬‫س‬ !‫ندارد‬ ‫اقتصادی‬ ‫صرفه‬ the short prefix "be", which is the stem of such words as "be", "been" and "being", would not be considered as the stem of the word
  • 44.  Successor Variety !‫قله‬ ‫و‬ ‫فلت‬ ‫روش‬ ‫کلمات‬ ‫از‬ ‫بعضی‬ ‫در‬ ‫مثل‬writing‫ریشه‬ ‫با‬ write‫دهد‬ ‫نمی‬ ‫جواب‬
  • 45.  n-gram stemmers statistics => st ta at ti is st ti ic cs unique digrams = at cs ic is st ta ti statistical => st ta at ti is st ti ic ca al unique digrams = al at ca ic is st ta ti Dice’s coefficient (similarity) a|b|c|d ab|bc|cd abc|bcd|cde
  • 46.  Affix Removal Stemmers .‫کنند‬ ‫می‬ ‫پاک‬ ‫زبان‬ ‫نحوی‬ ‫قوانین‬ ‫اساس‬ ‫بر‬ ‫را‬ ‫ها‬ ‫پسوند‬ ‫و‬ ‫پیشوند‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫اینگونه‬ ‫آقای‬ ‫از‬ ‫زیر‬ ‫مثال‬ ‫نمونه‬ ‫عنوان‬ ‫با‬Harman 1991:‫است‬ If a word ends in “ies” but not ”eies” or ”aies” Then “ies” -> y If a word ends in “es” but not ”aes” , or ”ees ” or “oes” Then “es” -> e If a word ends in “s” but not ”us” or ”ss” Then “s” -> NULL:‫دارد‬ ‫وجود‬ ‫ها‬ ‫الگوریتم‬ ‫از‬ ‫گونه‬ ‫این‬ ‫مورد‬ ‫در‬ ‫نکته‬ ‫دو‬ ‫ولی‬ ‫دارند‬ ‫خوبی‬ ‫کارایی‬ ‫اینکه‬ ‫وجود‬ ‫با‬I.‫منحصر‬‫به‬ ‫زبان‬.‫هستند‬II.‫را‬ ‫موارد‬ ‫تمام‬.‫دهند‬ ‫نمی‬‫ت‬‫ش‬‫پوش‬!‫نمونه‬ agreed
  • 47.
  • 48. Lexical Semantics Two alternative guesses of speech recognizer For breakfast, she ate durian For breakfast, she ate Dorian Our corpus contains neither “ate durian” nor “ate Dorian” words But, our corpus contains “ate orange”, “ate banana” words ‫مردمان‬Dorian‫تر‬‫د‬ ،‫مرکز‬‫یونان‬‫قدیم‬ ‫استوایی‬ ‫شکل‬ ‫بیضی‬ ‫میوه‬ ‫یک‬‫که‬ ‫است‬ ‫مانند‬ ‫ای‬ ‫خامه‬ ‫خمیر‬ ‫یک‬ ‫حاوی‬ ‫گوشتش‬
  • 49. ‫مفهوم‬ ‫با‬ ‫ته‬‫ط‬‫راب‬ ‫در‬ ‫ش‬‫ت‬‫خ‬‫ب‬ ‫تن‬‫ی‬‫ا‬ ‫در‬ ،‫بوده‬ ‫اختار‬‫ت‬‫س‬ ‫ته‬‫ب‬ ‫مربوط‬ ‫تم‬‫ی‬‫داشت‬ ‫ته‬‫ک‬ ‫تی‬‫ی‬‫ها‬ ‫تی‬‫س‬‫بر‬ ‫تمام‬ ‫الن‬ ‫ا‬‫ت‬‫ت‬ .‫کنیم‬ ‫می‬ ‫صحبت‬ ‫کلمات‬ ‫کاربرد‬lexical semantic: ✔ ‫های‬ ‫سیستم‬IR (Information Retrieval) ✔ ‫های‬ ‫سیستم‬Q&A (Question and Answering) ✔ ‫های‬ ‫سیستم‬MT (Machine Translation) ‫د‬‫کلیدی‬ ‫کلمات‬ ‫از‬ ‫آنها‬ ‫تن‬‫ی‬‫ب‬ ‫ت‬‫ت‬‫ه‬‫شبا‬ ‫و‬ ‫تن‬‫ت‬‫م‬ ‫دو‬ ‫ته‬‫س‬‫مقای‬ ‫برای‬ ‫ته‬‫ت‬‫گذش‬ ‫ر‬(back of words) ‫در‬ ‫اما‬ ‫کردیم‬ ‫می‬ ‫استفاده‬lexical.‫دهیم‬ ‫می‬ ‫تشخیص‬ ‫مفهوم‬ ‫طریق‬ ‫از‬ 1.‫بپرسیم‬ ‫سوال‬ ‫یک‬.‫بدهد‬ ‫جواب‬ ‫چند‬ .‫دهیم‬ ‫می‬ ‫انجام‬ ‫بینگ‬ ‫و‬ ‫گوگل‬ ‫در‬ ‫که‬ ‫ای‬ ‫روزانه‬ ‫های‬ ‫جو‬ ‫و‬ ‫جست‬ 2.‫و‬ ‫بپرسیم‬ ‫سوال‬ ‫یک‬.‫بدهد‬ ‫جواب‬ ‫یک‬ –‫ساعت‬ ‫است؟‬ ‫چند‬ ‫ساعت‬ ‫تهران‬ ‫شیراز‬ ‫پرواز‬10. ‫صبح‬
  • 50. - (‫لغات‬ ‫فرهنگ‬ ‫واژگان‬Lexicon)‫‌شناسی‬‫ن‬‫زبا‬ ‫اصطلح‬ ‫در‬‫است‬ ‫معنایی‬ ‫نظام‬ ‫یک‬‫که‬ .‫‌کند‬‫ی‬‫م‬ ‫معین‬ ‫را‬ ‫‌ها‬‫ه‬‫واژ‬ ‫دستوری‬ ‫یا‬ ‫اصلی‬ ‫‌های‬‫ه‬‫پای‬ ‫ا‬‫ت‬‫ی‬ ‫واژگان‬ ‫پیکره‬WordNet‫ساختار‬ ‫در‬ ‫ا‬‫ت‬‫ه‬ ‫ن‬‫ت‬‫آ‬ ‫ارتباط‬ ‫و‬ ‫لغات‬ ‫از‬ ‫بزرگ‬ ‫بتا‬‫ت‬‫س‬‫ن‬ ‫ی‬ ‫ته‬‫ع‬‫مجمو‬ ‫تک‬‫ی‬ .‫تت‬‫ق‬‫حقی‬ ‫در‬ ‫تت‬‫ن‬‫ورد‬ ‫تت‬‫س‬‫ا‬ ‫متون‬.‫میکند‬ ‫بیان‬ ‫را‬ ‫ته‬‫م‬‫کل‬ ‫دو‬ ‫تن‬‫ی‬‫ب‬ ‫تی‬‫ی‬‫معنا‬ ‫ته‬‫ط‬‫راب‬‫کبوتر‬ ‫مثال‬ ‫عنوان‬ ‫ته‬‫ب‬ .‫است‬ ‫جاندار‬ ‫نوع‬ ‫یتک‬ ‫حیوان‬ ‫و‬ ‫ت‬‫است‬ ‫حیوان‬ ‫نوع‬ ‫یتک‬ ‫پرنده‬ ‫و‬ ‫استت‬ ‫پرنده‬ ‫نوع‬ ‫از‬((IS-A,IS-A, Part-OfPart-Of))
  • 51. ‫ا‬‫ت‬‫ی‬ ‫واژگان‬ ‫پیکره‬ ‫تک‬‫ی‬ ‫ه‬‫ت‬‫ک‬‫این‬ ‫برای‬WordNet‫را‬ ‫آن‬ ‫معمول‬ ،‫تد‬‫ش‬‫با‬ ‫تر‬‫ت‬ ‫تب‬‫س‬‫منا‬ ‫ی‬‫ت‬‫ن‬‫زبا‬ ‫تحقیقات‬ ‫انجام‬ ‫برای‬ ( .‫کلم‬ ‫اجزا‬ ‫گذاری‬ ‫برچسب‬ ‫مثال‬ ‫عنوان‬ ‫ه‬‫ت‬‫ب‬ ‫کنند‬ ‫ی‬‫ت‬‫م‬ ‫نگاری‬ ‫ه‬‫ت‬‫ی‬‫حاش‬part-of-speech tagging) ‫م‬‫ت‬‫ل‬ ‫ن‬‫ت‬‫ی‬‫تعی‬ ‫ا‬‫ت‬‫ی‬lemmatization) (‫تجزیه‬ ‫ا‬‫ت‬‫ی‬ ‫داده‬ ‫پایگاه‬ ‫ه‬‫ت‬‫ب‬ ‫لغات‬ ‫ه‬‫ت‬‫ی‬‫پا‬ ‫فرم‬ ‫بازگرداندن‬ ‫و‬ ‫ا‬‫ت‬‫ه‬‫انت‬ ‫حذف‬ (‫متون‬ ‫کامل‬ ‫نحوی‬Parse)
  • 52. ●: ‫باشد‬ ‫داشته‬ ‫باید‬ ‫نت‬ ‫ورد‬ ‫یک‬ ‫که‬ ‫مواردی‬ ✔‫ف‬‫ت‬‫د‬‫مترا‬Synonymy:‫که‬ ‫کلمات‬‫نت‬ ‫ورد‬ ‫درخت‬ ‫اول‬ ‫سطح‬ ‫همیشه‬ ،‫دارند‬ ‫مشابهی‬ ‫مفهوم‬ ‫مثال‬ ‫عنوان‬ ‫به‬ ‫است‬ ‫مترادف‬marriage, matrimony, union, wedlock ✔‫چندمعنایی‬Polysemy: :‫اند‬ ‫قسم‬ ‫تو‬‫د‬ ‫بر‬ ‫که‬ ‫دارند‬ ‫معنا‬ ‫یک‬ ‫از‬ ‫بیش‬ ‫لغات‬ ‫بیشتر‬ ✔‫دارد‬ ‫مختلفی‬ ‫معانی‬ ‫اما‬ ‫است‬ ‫واژه‬ ‫یک‬ ‫که‬ ‫وقتی‬Hyponymy.‫مثل‬bank(‫بستر‬ )‫رودخانه‬bank) (‫اعتباری‬ ‫و‬ ‫مالی‬ ‫موسسات‬ ✔‫اند‬ ‫وابسته‬ ‫هم‬ ‫به‬ ‫معانی‬ ‫ولی‬ ‫است‬ ‫واژه‬ ‫یک‬ ‫که‬ ‫وقتی‬Polysemy.‫مثل‬ear ) (‫و‬ ‫ت‬‫ش‬‫گو‬ear) (‫شنوایی‬ ‫حس‬ ✔‫کلمه‬ ‫یک‬ ‫مجاز‬Metonymy.‫مانند‬ ‫شود‬ ‫دیگر‬ ‫کلمه‬ ‫جایگزین‬ ‫‌ای‬‫ه‬‫کلم‬ ‫وقتی‬whitewhite househouse‫مجاز‬ ‫و‬ ‫معنی‬ ‫که‬AmericaAmerica‫است‬ ✔‫‌تر‬‫م‬‫عا‬ ‫و‬ ‫‌تر‬‫ص‬‫خا‬ ‫روابط‬Hyponymy/Hyperonymy (IS A) ‫ایم‬ ‫بوده‬ ‫کبوتر‬ ‫کلمه‬ ‫نبال‬‫ت‬‫د‬ ‫به‬ ‫ما‬ ‫‌ایم‬‫ه‬‫پرند‬ ‫دنبال‬ ‫به‬ ‫بالتر‬ ‫سطوح‬ ‫تر‬‫د‬ ‫اما‬dove is a bird
  • 53. ‫کلمه‬ ‫یک‬ ‫برعکس‬ ‫ارتباط‬Meronymy‫و‬ ‫بودن‬ ‫جز‬ ‫یعنی‬part of .‫ساختمان‬ ‫از‬ ‫جزئی‬ ‫اتاق‬ ،‫ت‬‫ت‬‫س‬‫ا‬ ‫اتاق‬ ‫از‬ ‫جزئی‬ ‫تر‬‫د‬ ‫یا‬ ‫کلمه‬ ‫یک‬ ‫متضاد‬Antonymy| ‫بزرگ‬ ‫و‬ ‫کوچک‬ ‫مثل‬large and small ‫خورد‬ ‫می‬ ‫ما‬ ‫درد‬ ‫به‬ ‫کجا‬ ‫در‬ ‫ها‬ ‫این‬ ،‫حال‬ ‫مثل‬ ‫کلماتی‬ ‫کنید‬ ‫فرض‬apple, banana, grape, grapefruit‫درخت‬ ‫ساختار‬ ‌،‫داریم‬ .‫کند‬ ‫می‬ ‫کمک‬ ‫خیلی‬ ‫اینجا‬ ‫وردنت‬
  • 54. ‫و‬ ‫برداری‬ ‫فضای‬ ‫توانیم‬ ‫می‬ ‫داریم‬ ‫اختیار‬ ‫در‬ ‫که‬ ‫‌نتی‬‫ت‬‫د‬‫ور‬ ‫و‬ ‫ها‬ ‫فرمول‬ ‫این‬ ‫از‬ ‫استفاده‬ ‫با‬ ‫حال‬ . ‫کنیم‬ ‫محاسبه‬ ‫را‬ ‫کلمات‬ ‫بین‬ ‫شباهت‬
  • 55.
  • 56.
  • 57.
  • 58.
  • 59. https://pypi.org/project/yandex- translater/1.0 pip install yandex- translater ‫یاندکس‬‫یاندکس‬: (‫روسی‬ ‫به‬: (‫روسی‬ ‫به‬ЯндексЯндекс)‫موتور‬ ‫بزرگترین‬ ‫که‬ ‫است‬ ‫روسی‬ ‫اطلعات‬ ‫فناوری‬ ‫شرکت‬ ‫یک‬ )‫موتور‬ ‫بزرگترین‬ ‫که‬ ‫است‬ ‫روسی‬ ‫اطلعات‬ ‫فناوری‬ ‫شرکت‬ ‫یک‬ .‫خانگی‬ ‫صفحه‬ ‫‌کند‬‫ی‬‫م‬ ‫اداره‬ ‫را‬ ‫جهان‬ ‫جستجوی‬ ‫موتور‬ ‫هشتمین‬ ‫و‬ ‫روسیه‬ ‫جستجوی‬.‫خانگی‬ ‫صفحه‬ ‫‌کند‬‫ی‬‫م‬ ‫اداره‬ ‫را‬ ‫جهان‬ ‫جستجوی‬ ‫موتور‬ ‫هشتمین‬ ‫و‬ ‫روسیه‬ ‫جستجوی‬Yandex.ruYandex.ru .‫است‬ ‫روسیه‬ ‫در‬ ‫سایت‬ ‫وب‬ ‫‌ترین‬‫ب‬‫محبو‬.‫است‬ ‫روسیه‬ ‫در‬ ‫سایت‬ ‫وب‬ ‫‌ترین‬‫ب‬‫محبو‬
  • 60. 1 ‫ی‬‫ر‬‫ی‬‫گ‬‫د‬‫ا‬‫ی‬ ‫ز‬‫ا‬ ‫ی‬‫ا‬ ‫ه‬‫ن‬‫و‬‫م‬‫ن‬ ‫ی‬‫ر‬‫ی‬‫گ‬‫د‬‫ا‬‫ی‬ ‫ز‬‫ا‬ ‫ی‬‫ا‬ ‫ه‬‫ن‬‫و‬‫م‬‫ن‬ ‫ی‬‫ن‬‫ی‬‫ش‬‫ا‬‫م‬ ‫ی‬‫ن‬‫ی‬‫ش‬‫ا‬‫م‬ ‫گ‬‫گ‬‫و‬‫و‬‫گ‬‫گ‬‫ل‬‫ل‬
  • 61. ‫متن‬ ‫کردن‬ ‫مرتب‬ ‫و‬ ‫تمیز‬ ‫فارسی‬ ‫زبان‬ ‫‌های‬‫ه‬‫داد‬ ‫از‬ ‫استفاده‬ ‫واسط‬ ‫‌ها‬‫ه‬‫واژ‬ ‫و‬ ‫‌ها‬‫ه‬‫جمل‬ ‫تقطیع‬ ‫‌ها‬‫ه‬‫واژ‬ ‫‌یابی‬‫ه‬‫ریش‬ ‫جمله‬ ‫صرفی‬ ‫تحلیل‬ ‫جمله‬ ‫نحوی‬ ‫تجزیه‬ ‫بسته‬ ‫با‬ ‫سازگاری‬NLTK ‫نسخه‬ ‫پایتون‬ ‫از‬ ‫پشتیبانی‬۲‫و‬۳ ‫ی‬‫ها‬ ‫ه‬‫چ‬‫ب‬ ‫ز‬‫ا‬ ‫ی‬‫ار‬‫ک‬ ‫ه‬‫ح‬‫ب‬ ُ‫س‬ ‫ن‬‫یا‬‫بن‬‌‫ش‬‫ان‬‫د‬ ‫ت‬‫ک‬‫ر‬‫ش‬ » «‫ف‬‫ر‬‫ژ‬‫ت‬‫ش‬‫ز‬‫دا‬‫ر‬‫پ‬ ‫ر‬‫کا‬‫ه‬‫را‬ ‫بحه‬ ُ‫س‬
  • 62. ‫به‬ ‫ن‬‫ت‬‫ي‬‫ماش‬ ‫و‬ ‫ان‬‫ت‬‫س‬‫ان‬ ‫ن‬‫ت‬‫ي‬‫ب‬ ‫ارتباط‬ ‫برای‬ ‫تی‬‫ب‬‫جذا‬ ‫يار‬‫ت‬‫س‬‫ب‬ ‫تت‬‫ف‬‫رهيا‬ ‫بيعی‬‫ت‬‫ط‬ ‫زبان‬ ‫پردازش‬ ‫شگفت‬ ‫تحولت‬ ‫د‬‫ت‬‫ن‬‫میتوا‬ ‫تل‬‫م‬‫کا‬ ‫طور‬ ‫ته‬‫ب‬ ‫ش‬‫ت‬‫ن‬‫شد‬ ‫تی‬‫ل‬‫عم‬ ‫تورت‬‫ص‬ ‫در‬ ‫و‬ ‫د‬‫ت‬‫ي‬‫‌آ‬‌‫ي‬‫م‬ ‫شمار‬ .‫مستئله‬ ‫ک‬‫يت‬ ‫طتبيعی‬ ‫زبان‬ ‫پردازش‬ ‫ئله‬‫ت‬‫مس‬ ‫باشد‬ ‫داشتته‬ ‫پتی‬ ‫در‬ ‫را‬ ‫انگيزی‬AI- Complete‫سطح‬ ‫تتلزم‬‫س‬‫م‬ ‫تل‬‫م‬‫کا‬ ‫طور‬ ‫ته‬‫ب‬ ‫تن‬‫آ‬ ‫شدن‬ ‫ق‬‫ت‬‫ق‬‫مح‬ ‫ته‬‫ک‬ ‫چرا‬ ،‫د‬‫ت‬‫ي‬‫‌آ‬‌‫ي‬‫م‬ ‫شمار‬ ‫ته‬‫ب‬ .‫است‬ ‫ماشين‬ ‫برای‬ ‫انسان‬ ‫حالت‬ ‫و‬ ‫خارج‬ ‫جهان‬ ‫درک‬ ‫از‬ ‫باليی‬
  • 63. :‫مفید‬ ‫‌های‬‫ه‬‫‌مای‬‫ن‬‫ب‬:‫مفید‬ ‫‌های‬‫ه‬‫‌مای‬‫ن‬‫ب‬ ‫فردوسی‬ ‫دانشگاه‬ ‫وب‬ ‫فناوری‬ ‫آزمایشگاه‬ ‫دانشنامه‬ http://wiki.wtlab.um.ac.ir/index.php ‫کاوی‬ ‫متن‬ ‫و‬ ‫دیتا‬ ‫بیگ‬ http://bigdata-ir.com ‫دهخوارقانی‬ ‫رحیم‬ ‫دکتر‬ ‫با‬ ‫‌خونه‬‫ب‬‫مکت‬ ‫از‬ ‫طبیعی‬ ‫های‬ ‫زبان‬ ‫پردازش‬ https://maktabkhooneh.org/course/285 ‫پایتون‬ ‫با‬ ‫فارسی‬ ‫زبان‬ ‫پردازش‬ ‫برای‬ ،‫هضم‬ http://www.sobhe.ir/hazm ‫برتر‬ ‫اندیشه‬ ‫کاوان‬ ‫داده‬ https://www.dadekavan.ir ‫فارسی‬ ‫زبان‬ ‫روی‬ ‫بر‬ ‫کار‬ ‫مقالت‬ ‫و‬ ‫منابع‬ ‫دیگر‬ https://mostafadehghani.com/persian-linguistic-resources