پیکره Oxford English Corpus
پیکره زبانی (Corpus) مانند پیکره Oxford English Corpus، مجموعهای بزرگ از متون نوشتاری یا گفتاری است که به منظور مطالعه و تحلیل زبان جمعآوری شدهاند. این مجموعهها میتوانند شامل کتابها، مقالات، مکالمات، فیلمها، وبسایتها و منابع دیگر باشند. پیکرههای زبانی به زبانشناسان و محققان این امکان را میدهند که به تحلیلهای دقیق و معتبری درباره ساختار، واژگان، نحوه کاربرد و تغییرات زبان در طول زمان دست یابند. با استفاده از ابزارهای پیشرفته تحلیل داده، میتوان از این پیکرهها برای انجام تحقیقات زبانی، توسعه نرمافزارهای زبانی، و بهبود آموزش زبان استفاده کرد. پیکرههای زبانی به دلیل دقت و جامعیت خود، نقش بسیار مهمی در پیشرفت مطالعات زبانی و تحقیقات علمی دارند.
فهرست مطالب
معرفی پیکره واژگانی آکسفورد
پیکره زبان انگلیسی آکسفورد (OEC) عمدتاً شامل وبسایتهایی است که به گونهای انتخاب شدهاند که تمامی انواع زبان انگلیسی از رمانهای ادبی گرفته تا روزنامههای روزمره و زبان وبلاگها و حتی شبکههای اجتماعی را ارائه دهند، علاوه بر انگلیسی بریتانیایی و آمریکایی، گونههای مختلفی از زبان انگلیسی از ایرلند، استرالیا، نیوزیلند، کارائیب، کانادا، هند، سنگاپور و آفریقای جنوبی نیز در این پیکره وجود دارد. آخرین نسخه این پیکره تقریباً شامل ۲.۱ میلیارد واژه (حدود ۲.۵ میلیارد توکن) است.
این پیکره شامل زبانهای انگلیسی از بریتانیا، ایالات متحده، ایرلند، استرالیا، نیوزیلند، کارائیب، کانادا، هند، سنگاپور و آفریقای جنوبی است. متنهای این پیکره عمدتاً از صفحات وب گردآوری شدهاند؛ برخی متون چاپی، مانند مقالات مجلات علمی، نیز برای تکمیل حوزههای موضوعی خاص جمعآوری شدهاند.
سیاست دسترسی به OED
دسترسی به این پیکره واژگانی محدود است مگر اینکه مجوز ویژهای اعطا شود. برای دسترسی به پیکره، دریافت مجوز از انتشارات دانشگاه آکسفورد ضروری است. پژوهشگران میتوانند با انتشارات تماس بگیرند.
لازم است خلاصهای کوتاه از پروژه پژوهشی خود را ارائه دهید. لطفاً در درخواست خود اشاره کنید که مایل به دسترسی به پیکره در Sketch Engine هستید و نام کاربری خود را در این سامانه ذکر کنید. (این فرایند به صورت دستی انجام میشود و ممکن است چند روز طول بکشد.)
ابزارهایی برای کار با پیکره OEC
یک مجموعه کامل از ابزارها برای کار با این پیکره انگلیسی در دسترس است که شامل موارد زیر میشود:
√ Word Sketch: ترکیبهای همنشینی کلمات انگلیسی دستهبندیشده بر اساس روابط دستوری
√ Thesaurus: مترادفها و کلمات مشابه برای هر کلمه
√ Keywords: استخراج اصطلاحات شامل واحدهای تککلمهای و چندکلمهای
√ Word Lists: فهرست اسامی، افعال، صفات و غیره در زبان انگلیسی بر اساس فراوانی
√ N-grams: فهرست فراوانی واحدهای چندکلمهای
√ Concordance: مثالهایی در متن
√ Trends: تحلیل زمانی که به صورت خودکار نوواژهها و تغییرات در کاربرد را شناسایی میکند
√ Text Type Analysis: آمار مربوط به فرادادههای موجود در پیکره
نسخهها و بهروزرسانیها
√ نسخه ۳ (فوریه ۲۰۱۲)
“OEC + Biwec build v2” – اندازه: ۲.۰۷۳ میلیارد واژه
بهروزرسانیها:
۲۰۱۲-۰۳-۰۸: کدگذاری شده، Word Sketch
۲۰۱۱-۰۴-۰۵: شمارش واژههای مستند
√ نسخه ۲ (ژانویه ۲۰۱۱)
اندازه: ۲.۰۰۸ میلیارد واژه
بهروزرسانیها:
۲۰۱۰-۱۱-۰۲: کدگذاری شده، Word Sketch
۲۰۱۱-۰۳-۰۵: شمارش واژههای مستند
√ نسخه ۱ (۲۰۰۹)
اندازه: ۱.۷۳۶ میلیارد واژه
بهروزرسانیها:
۲۰۱۰-۰۳-۱۵: کدگذاری شده
۲۰۱۰-۰۴-۰۱: Word Sketch
۲۰۱۱-۰۳-۰۵: شمارش واژههای مستند
جستجو در پیکره زبان انگلیسی آکسفورد
Sketch Engine ابزارهای متنوعی برای کار با این پیکره ارائه میدهد.
ثبتنام برای نسخه آزمایشی رایگان
Concordance از پیکره زبان انگلیسی آکسفورد
یا
باز کردن در Sketch Engine
نتیجه گیری
پیکره زبان انگلیسی آکسفورد و مجموعه دادههای مرتبط، فرصتی را برای بررسی روندهای جاری و اخیر در زبان انگلیسی فراهم میکنند. این پیکره بسیار بزرگ و در حال رشد است و بهطور منظم با متون جدید بهروزرسانی میشود. فرهنگنویسان انتشارات دانشگاه آکسفورد از این پیکره برای ایجاد و بهروزرسانی مدخلهای فرهنگ لغت آکسفورد و سایر فرهنگها، آثار مرجع و مواد آموزشی استفاده میکنند. همچنین میتوان از این پیکره برای رصد و کشف روندهای اجتماعی از طریق تحلیل گفتمانهای موجود در دادهها بهره برد.
پیکره Oxford English Corpus از نرمافزار SketchEngine برای مدیریت، فیلتر کردن و آشکارسازی الگوها در این پیکره چندمیلیارد واژهای استفاده میکند. اطلاعات ورود به پیکره زبان انگلیسی آکسفورد با لطف انتشارات دانشگاه آکسفورد فراهم میشود و در جلسه آموزشی در اختیار کاربران قرار خواهد گرفت.