"لقد انتهيت للتو من قراءة هذا الكتاب وأنا قررت أنني أضف".
وقال "رأيت برنامج تلفزيوني حول أدهد. أتشرف بذلك ، وكذلك ابني".
"ابنتي ويقول المدرس وسألت أسئلة كثيرة جدا ، هل تعتقد انها بشكل مفرط؟"
على مدى السنوات العشر الماضية ، حيث سمعنا جميعا مثل هذه التصريحات من الاصدقاء والاسرة وحتى الغرباء.
كمدرب والمستشار الروحي ، فأنا أتعامل مع أسئلة حول إضافة وأدهد كل يوم. بلدي الأفكار قد يكون من المفيد لك أيضا.
إضافة وأدهد في البالغين
مؤخرا ، بدأ عميل لدينا جلسة استشارة من قبل معلنا انه في إضافة. زوجته سارعت الى توافق. هذا ما أتى بها إلى عتبة بلادي. انهم بحاجة الى مساعدة من زواجهما.
في كثير من الأحيان ، فإن الخطوة الأولى لإصلاح الزواج يبدأ نمو الشخصية الروحية. حتى يفهم الفرد عليه أو عليها ، فإنه من الصعب بناء الثقة والتفاهم في أي علاقة.
في هذه الحالة ، أنا لم نشيط تفحص موكلي. بعض intuitives الطبية ، بما في ذلك لي ، واستخدام هذه العملية لتحديد المناطق التي تحتاج الى العمل. نحن على "رؤية" المادية والاضطراب العاطفي والنشيطة.
المقبل ، وصفت لموكلي ما رأيته في التفحص. وأوضحت أنه في سياق إضافة. مثل كثير من الناس الذين هم عن طريق الخلط وإضافة أدهد ، انه يشعر بالارتياح ليعثر على شخص يفهم ما يجري.
بعد ذلك ، وأوصيت بأن أنها قراءة المزيد عن هذا الموضوع. من بين عدد قليل من الدراسات والاستشارات الدورة ، العميل وزوجته كانا قادرين على فهم بعضنا بعضا بشكل أفضل. وفقا لها ، وبدأ عصر النهضة في غضون زواجهما.
لكثير من البالغين ، وهذا هو كل ما يتطلبه الأمر. مع القليل من التعليم ، وبعض المشورة ، وأنها تعلم كيفية العيش مع إضافة وأدهد.
إضافة وأدهد في أطفال
معظم الناس يتم تشخيص مع إضافة أو أدهد كأطفال. من خلالهم ، يمكننا المزيد عن وجوه العديد من اضطراب نقص الانتباه ، مع أو بدون فرط النشاط واضحة.
منذ سنوات ، بلدي واحد من أهم الانجازات كان مع (12 عاما) العميل القديم. أول تصريح له كان مذهلا بالنسبة لي.
مع نظرة من الكرب ، وبادره : "من المؤلم جدا أن يكون الإنسان عندما أفكر في ورؤية كل ما قمنا به على هذا الكوكب ، ولكن ، وأنا أعرف وأنا هنا لجعله أفضل." المسح طاقته ، ويمكنني أن الإحساس بالألم الذي كان فيه بالنسبة لي ، كان كما لو انه كان قد ولد بدون الجلد. انه يمكن ان يشعر كل شيء من حوله. انه ليس لديه حدود الشخصية.
ساعده في تلك الدورة ، ولكنها ساعدتني أكثر. تعلمت ، بما لا يدع مجالا للشك ، والتي تضيف أدهد لا المعوقين. انهم الهدايا. تلك الهدايا الحاجة إلى أن تدار ورعايتها ، الا انهم ما زالوا الهدايا. بل قد أشر على الطريقة التي جنسنا يتطور.
إذا كان لنا أن عالج هذه الهدايا للتقليل منها ، فنحن نخاطر بفقدان تلك الهدايا تماما.
أضف ، أدهد والتفاهم و"الصندوق"
خلال الأشهر التالية ، ممارستي استقطبت العديد من العملاء مع اضطراب نقص الانتباه وفرط النشاط أشكال. لقد كان واحدا من القلائل الذين تفهمناها كهدايا ، وليس الأمراض.
موظفو مكتبي وكنت أريد أن نكتة تصبح "إضافة المغناطيس." ولكن ، تلك الشهور كانت تجربة هائلة التعليمية. بعض من زبائني كانوا يعلمون بالفعل عن إضافة وأدهد. كنت وبالفعل تم تشخيصها. كانوا يعرفون المصطلحات والحلول الطبية الشعبية. بل ان البعض اختار التسمية أضف أنه ، أخيرا ، فإنها تحدد من هم.
هؤلاء العملاء يمكن أن تكون الأكثر صعوبة في العمل معه. إضافة "مربع" بدور الحماية والدفاع. لمساعدتهم ، ويجب علينا إقناعهم بأن الخطوة خارج المربع. بالنسبة لشخص عاش بلا حدود ، وهذا يشكل خطوة مخيف جدا. المربع هو أن يكون مكانا آمنا. اقناعها خطوة خارج يمكن أن يكون تحديا.
كيفية المساعدة
أساسيات التالية يمكن أن تساعد أي شخص يتعامل مع إضافة وأدهد في الأطفال والبالغين.
* إضافة وأدهد هي الهدايا.
* إضافة وأدهد التسميات هي الافراط في استخدامها. كانت الظروف قد قناع الأخرى التي تحتاج إلى دراسة.
* وبالإضافة إلى ذلك ، يمكن إضافة ملثمين وأدهد من قبل الآخرين ، وظروف اكثر وضوحا. الدواء يمكن أن تجعل من الصعب تحديد من الاهتمام والنشاط ومسائل الحدود.
* اضطراب نقص الانتباه ، مع أو بدون فرط النشاط ، وتؤثر على أربعة مستويات : الجسدي والعاطفي والعقلي والروحي. ويجب أن تعالج كل مستوى على حدة.
* وفي معظم الحالات ، إضافة وأدهد الحاجة إلى أن تدار ، وليس مخدرا.
* وفي جميع الحالات تقريبا ، وهؤلاء الناس أيضا قد زادت من التصورات -- والحساسيات ل-- الروحانية. الروحانية التي يمكن أن توفر جسرا لمساعدتهم ، وكذلك تقديم الدعم من خلال حلقات النشاط الشديد و / أو الضعف.
لأن هذه وغيرها من الشروط يمكن أن تكون "الطبقات" ، التشخيص والعلاج يمكن أن يكون صعبا مع بعض العملاء. ومع ذلك ، هذا أيضا يجعل العمل باستمرار المشاركة ، وتحديا للفضول.
الخطوة الأولى
في معظم الحالات ، هو القضية الرئيسية الأولى للعميل الشعور بالعزلة. لحل ذلك ، عملاء قد تطورت السلوك غير اللائق. على سبيل المثال ، قد اعتاد أن تكون لخلق حالات الطوارئ والدراما لجذب الاهتمام والدعم.
حتى من الشعور بالعزلة هو التصدي لها ، ويمكن علاج هذه السلوكيات بطيئة. بمجرد أن يشعر العميل اتصال أقوى للمقربين له أو لها ، وتصبح العملية أسهل بكثير. بالإضافة إلى ذلك ، العميل أسلوب حياة يجب أن يعاد النظر. ويشمل هذا النظام الغذائي والمواقف. بروتوكولات يجب إنشاء وفهمها من قبل الجميع الذين متصل إلى العميل.
إضافة وأدهد هي العاهات لا
اضطراب نقص الانتباه ليس العجز ، بل هو diffability "." الشخص قدرات ليست "أقل من" أو البصر ، مختلفة تماما.
كل شخص لامع في بعض الطريق. في كثير من الأحيان ، هذا التألق ببساطة يحتاج إلى اكتشاف ، واعترف مقفلة. أضف وأدهد هي الهدايا. أنها قد تمثل التوسع في وعينا وراء 10 ٪ من الدماغ التي تستخدم تقليديا. دعونا لا نحاول طبب واخضاع هذه الخطوة المثيرة التطوري.
في الآونة الأخيرة ، وهو عميل قال لي : "أنا لست غبية تعلمون ، حتى لو كانت كل من يقول انا". هذا سوء فهم مشترك عند التعامل مع الناس -- خاصة الأطفال -- الذين لديهم هدية من إضافة.
انهم ليسوا "الغبية" ، أو الغباء. في الواقع ، انهم حتى ذكية في طرق مختلفة من هذا القبيل ، ونحن لا ندرك دائما أن ما لديهم من الأصول.
مستقبل إضافة وأدهد
بالعمل معا ، يمكننا أن تصبح ذكية بما فيه الكفاية لفهم تلك مع إضافة وأدهد. الآن ، دعونا نساعد هؤلاء الناس في التعامل مع الموهوبين الانعزال والخوف والقلق والاكتئاب ، وأكثر من ذلك. يمكننا أن نساعد بعضنا بعضا. في هذه العملية ، يمكن أن نجد سبلا لاستخدام المزيد من المعلومات الاستخبارية ، للمساعدة في عملية تطورية. عالمنا يمكن أن تستفيد كثيرا.
يمكنك أن تساعد الناس الذين لديهم وإضافة أدهد. بدء بالسماح لهم أن يعرفوا أنهم ليسوا وحدهم.
الاثنين، 31 أغسطس 2009
أضف وأدهد : أسطورة المجهر
في كثير من الأحيان ، ونحن الكبار ومسمع من العالم يؤثر علينا كثيرا أن يفوتنا ما هو واضح. أسوأ من ذلك ، علينا أن نعزز بعضنا البعض المعتقدات الخاطئة. على مدى العقدين الماضيين ، الكثير من البالغين قد يساء فهمه لفكرة التركيز وإضافة / أدهد الطفل.
قبل أكثر من عقد للمرة الاولى عندما بدأت العمل مع إضافة / أدهد الأطفال والبالغين ، والجميع يبدو مقتنعا بأن اضطراب نقص الانتباه وعدم القدرة على التركيز. اسم يقول كل شيء ، إذا جاز التعبير.
ومع ذلك ، باعتباره مدرب بديل والمستشار ، كان واضحا لي أن اسمه كان على خطأ.
في وقت مبكر في عملي رأيت مشاكل "" العمل مع هذه المجموعة. في الواقع ، فهي ليست مشاكل. لذلك ، في كتاب لي ، العضو المنتدب وهبة : نهج بديلة لاضطراب نقص الانتباه ، وأنا تسميته الثقافية متاعب المكتسب ، أو رابطة الدول المستقلة من أجل قصير.
الأفراد الذين الموهوبين مع إضافة / أدهد لقد اثنين من النشاط "الإعدادات". فهي شديدة التركيز ومتعددة المهام.
ومع ذلك ، العديد من الناس لا يدركون أن يضيف الأفراد لا يمكن أن تركز فقط ولكن في الواقع شديدة التركيز. ذلك لأن ما يركز على الأطفال -- التلفزيون ، والألعاب ، وغيرها -- قد لا يبدو ان لها قيمة كبيرة.
قبل التفكير في أن إضافة / أدهد الأطفال (والكبار) وعدم القدرة على التركيز ، ومجتمعنا يحاول حل المشكلة خاطئة.
الناس يأتون إلى حلول ومهارات المواجهة التي تبدو للعمل ، ولكنها ليست في الواقع الصحيح. ونتيجة لذلك الفرص لإيجاد حلول حقيقية وغاب. العوامل التي ساهمت هي أيضا تجاهلها ، ولكن لو كانت موجهة ، وإجابات على إضافة / أدهد "المشاكل" قد تكون واضحة.
كالعادة ، والطب الغربي يعترف -- أو حتى يخلق -- العوارض ، ولكن لأسباب وإجراءات وقائية يبدو أبعد من متناول أيديهم.
عندما كنت تعمل مع إضافة / أدهد الأطفال والكبار ، ومحاولة طرح الأسئلة التالية. أنها يمكن أن تساعد على حل مسائل التركيز ، دون أن يؤثر ذلك على الإبداع والرائع ، تتخبط المخابرات تلك الموهوبين مع إضافة وأدهد.
1. كنت قد قدمت هذا الموضوع بطريقة جذابة؟ كنت قد ساعدت في ذهن الفرد فهم قيمة ما كانوا يسعون لمعرفة؟
2. يتم السماح لك (أو حتى تشجيع) أسلوب التعلم الذي هو الأنسب بالنسبة للفرد؟
3. هل للتأكد من العوامل البيئية التي يمكن أن تجعل من الصعب التركيز؟
4. كنت قد قدمت المواد بطرق مختلفة ، حتى أن الطالب قد الاختيارات؟ كنت قد جعل من السهل على المتعلم للتنقل بين تلك المناهج ، لمساعدة المتعلم على استيعاب المواد؟
5. أنت السماح لهم لمعالجة المعلومات في الفروع ، وفقا لأسلوب المعالجة المناسبة؟
6. هل تسمح للطالب أن تأخذ هذه المعلومات في عدد من اتجاهات مختلفة؟ وهذا هو ، هل الإجابة على أسئلة المتعلم ، حتى لو كنت لا أفهم حيث جاءت الاسئلة من؟ هل التعادل الأجوبة في ما يتعلمونه؟
7. لقد قمت برصد المتعلم الحمية؟ النظام الغذائي والقضايا البيئية يمكن أن تؤثر على تركيز القضايا ، وقضايا الطاقة وعاطفية أيضا.
هل يمكن لشخص مع إضافة / أدهد التركيز بدون دواء؟ في تجربتي ، وكان الجواب نعم ، إذا كان كل شيء آخر في النظام ، وأنه مبني بشكل صحيح.
قبل أكثر من عقد للمرة الاولى عندما بدأت العمل مع إضافة / أدهد الأطفال والبالغين ، والجميع يبدو مقتنعا بأن اضطراب نقص الانتباه وعدم القدرة على التركيز. اسم يقول كل شيء ، إذا جاز التعبير.
ومع ذلك ، باعتباره مدرب بديل والمستشار ، كان واضحا لي أن اسمه كان على خطأ.
في وقت مبكر في عملي رأيت مشاكل "" العمل مع هذه المجموعة. في الواقع ، فهي ليست مشاكل. لذلك ، في كتاب لي ، العضو المنتدب وهبة : نهج بديلة لاضطراب نقص الانتباه ، وأنا تسميته الثقافية متاعب المكتسب ، أو رابطة الدول المستقلة من أجل قصير.
الأفراد الذين الموهوبين مع إضافة / أدهد لقد اثنين من النشاط "الإعدادات". فهي شديدة التركيز ومتعددة المهام.
ومع ذلك ، العديد من الناس لا يدركون أن يضيف الأفراد لا يمكن أن تركز فقط ولكن في الواقع شديدة التركيز. ذلك لأن ما يركز على الأطفال -- التلفزيون ، والألعاب ، وغيرها -- قد لا يبدو ان لها قيمة كبيرة.
قبل التفكير في أن إضافة / أدهد الأطفال (والكبار) وعدم القدرة على التركيز ، ومجتمعنا يحاول حل المشكلة خاطئة.
الناس يأتون إلى حلول ومهارات المواجهة التي تبدو للعمل ، ولكنها ليست في الواقع الصحيح. ونتيجة لذلك الفرص لإيجاد حلول حقيقية وغاب. العوامل التي ساهمت هي أيضا تجاهلها ، ولكن لو كانت موجهة ، وإجابات على إضافة / أدهد "المشاكل" قد تكون واضحة.
كالعادة ، والطب الغربي يعترف -- أو حتى يخلق -- العوارض ، ولكن لأسباب وإجراءات وقائية يبدو أبعد من متناول أيديهم.
عندما كنت تعمل مع إضافة / أدهد الأطفال والكبار ، ومحاولة طرح الأسئلة التالية. أنها يمكن أن تساعد على حل مسائل التركيز ، دون أن يؤثر ذلك على الإبداع والرائع ، تتخبط المخابرات تلك الموهوبين مع إضافة وأدهد.
1. كنت قد قدمت هذا الموضوع بطريقة جذابة؟ كنت قد ساعدت في ذهن الفرد فهم قيمة ما كانوا يسعون لمعرفة؟
2. يتم السماح لك (أو حتى تشجيع) أسلوب التعلم الذي هو الأنسب بالنسبة للفرد؟
3. هل للتأكد من العوامل البيئية التي يمكن أن تجعل من الصعب التركيز؟
4. كنت قد قدمت المواد بطرق مختلفة ، حتى أن الطالب قد الاختيارات؟ كنت قد جعل من السهل على المتعلم للتنقل بين تلك المناهج ، لمساعدة المتعلم على استيعاب المواد؟
5. أنت السماح لهم لمعالجة المعلومات في الفروع ، وفقا لأسلوب المعالجة المناسبة؟
6. هل تسمح للطالب أن تأخذ هذه المعلومات في عدد من اتجاهات مختلفة؟ وهذا هو ، هل الإجابة على أسئلة المتعلم ، حتى لو كنت لا أفهم حيث جاءت الاسئلة من؟ هل التعادل الأجوبة في ما يتعلمونه؟
7. لقد قمت برصد المتعلم الحمية؟ النظام الغذائي والقضايا البيئية يمكن أن تؤثر على تركيز القضايا ، وقضايا الطاقة وعاطفية أيضا.
هل يمكن لشخص مع إضافة / أدهد التركيز بدون دواء؟ في تجربتي ، وكان الجواب نعم ، إذا كان كل شيء آخر في النظام ، وأنه مبني بشكل صحيح.
أضف ، أدهد والتركيز -- ثلاثة أسئلة هامة
التركيز يمكن أن يشكل تحديا للشعب مع إضافة أو أدهد ، ولكن الحلول يمكن ان تكون سهلة.
هناك عدد من العوامل المختلفة لدراسة عندما تتطلع الى زيادة التركيز في الفردي اضافة الموهوبين. أنها يمكن أن تشمل تغييرات في النظام الغذائي ، والقضايا البيئية ، والهيكل التنظيمي ل، أو من خلال الدعم التكميلي.
في أكثر من عشر سنوات من العمل مع إضافة / أدهد العملاء ، وتعلمت أنه لا توجد الحبوب السحرية أو واحدة سهلة الحلول الخطوة. الجميع هو الفردية الفريدة وأفضل البرامج التي تم إنشاؤها بشكل فردي.
مكتبي قد تلقى مكالمات من أناس كثيرين. في بعض الأحيان ، فإنها قد حاولت تكملة ، تقنية ، أو حتى تعديل أسلوب الحياة التي أوصيت لعميل مختلفة. بالطبع ، لم يكن العمل من أجل الطالب.
السبب؟ انهم ليسوا الشخص الذي أوصيت من أجله. أو ، إذا سمعوا لي على الراديو أو قرأت كتابي ، فإنها تغفل عبارات مثل "كان معروفا للمساعدة" أو "يمكن أن تساعد بعض الناس الذين..." الحل الذي يعمل لشخص واحد لن يؤدي بالضرورة مساعدة شخص آخر.
يبحث في إضافة / أدهد بوصفها نوعا من الإعاقة (أ النقطة التي وإنني أختلف بشدة) ، نحن في نهاية المطاف تحاول التعامل معها على أنها العجز. هذا هو نهج خاطئ. بدلا من ذلك ، نحن بحاجة إلى إدراك وفهم وقبول الفرد ، ومن ثم خلق شيء من شأنها أن تعمل الأفضل بالنسبة له أو لها.
لخلق الاستراتيجيات الفردية التي من شأنها العمل ، والنظر في المسائل التالية التركيز.
1. ما هو نوع من المتعلم أنت؟
أم لا كنت في المدرسة ، أو في أي حالة التعلم ، وانها حيوية لفهم أسلوب التعلم الخاص بك. بعض التركيز والتذكر الأدوات سوف تعمل على نحو أفضل لك من مناطق أخرى. على سبيل المثال ، قد المتعلم البصرية العمل بشكل أفضل مع الترميز اللون أو قائمة القرارات على سبيل المثال.
2. أنت أفضل في صورة كبيرة أو تكون لديك مزيد من التفصيل المنحى؟
قبل إضافة أي فرد يمكن أن التركيز على ما يجب القيام به ، هو أو هي يجب أن ندرك لماذا يجب القيام به. القيمة الإجمالية يجب أن يكون واضحا ، ونحن ندعو إلى أن "شراء فيها." إذا كنت الصورة الكبيرة أو التفصيل المنحى ، وطرح الأسئلة لإثبات أن يشتري لك بالدخول مرة واحدة فهم الصورة الكبيرة ، وماذا كنت تعمل لتحقيق ذلك أنه من السهل الدخول إلى عقلك في هذه العملية.
3. بعض بيئات أفضل للالتركيز الخاص بك؟
بالنسبة لبعض الناس ، تماما الصمت تعمل بشكل جيد. يحتاج البعض الآخر أو 2 أو 3 مصادر الضجيج الأخرى -- مثل التلفزيون والراديو ، أو أجهزة أي بود -- إلى القيام بعمل أفضل.
بعض الناس رد فعل سلبيا على مصابيح الفلورسنت أو يفعلون أفضل إذا كان هناك تيار الهواء. أنت الأفضل في الهواء الطلق أو في الداخل؟ يمكنك التركيز بشكل أفضل في مساحة كبيرة أو في مساحة صغيرة؟
أشياء مختلفة ، وأحيانا مزيجا منها ، يمكن أن تدعم التركيز الخاص بك.
في بلدي الممارسة ، رأيت أن العلاجات رائحة معينة ، وأطعمة أو مشروبات أو ملاحق يمكن أن تساعد الفرد على الذهاب الى واسطة التركيز.
التفكير في الأسئلة التي كنت قد أعطيت لك. النظر في إجاباتك بدلا من "الحبوب السحرية" ، أو واحد يناسب جميع الحلول.
من الأفضل لك أن تفهم نفسك ، أو شخص ما أن تحاول مساعدة ، وأكثر سهولة ستجد حلولا فعالة.
هناك عدد من العوامل المختلفة لدراسة عندما تتطلع الى زيادة التركيز في الفردي اضافة الموهوبين. أنها يمكن أن تشمل تغييرات في النظام الغذائي ، والقضايا البيئية ، والهيكل التنظيمي ل، أو من خلال الدعم التكميلي.
في أكثر من عشر سنوات من العمل مع إضافة / أدهد العملاء ، وتعلمت أنه لا توجد الحبوب السحرية أو واحدة سهلة الحلول الخطوة. الجميع هو الفردية الفريدة وأفضل البرامج التي تم إنشاؤها بشكل فردي.
مكتبي قد تلقى مكالمات من أناس كثيرين. في بعض الأحيان ، فإنها قد حاولت تكملة ، تقنية ، أو حتى تعديل أسلوب الحياة التي أوصيت لعميل مختلفة. بالطبع ، لم يكن العمل من أجل الطالب.
السبب؟ انهم ليسوا الشخص الذي أوصيت من أجله. أو ، إذا سمعوا لي على الراديو أو قرأت كتابي ، فإنها تغفل عبارات مثل "كان معروفا للمساعدة" أو "يمكن أن تساعد بعض الناس الذين..." الحل الذي يعمل لشخص واحد لن يؤدي بالضرورة مساعدة شخص آخر.
يبحث في إضافة / أدهد بوصفها نوعا من الإعاقة (أ النقطة التي وإنني أختلف بشدة) ، نحن في نهاية المطاف تحاول التعامل معها على أنها العجز. هذا هو نهج خاطئ. بدلا من ذلك ، نحن بحاجة إلى إدراك وفهم وقبول الفرد ، ومن ثم خلق شيء من شأنها أن تعمل الأفضل بالنسبة له أو لها.
لخلق الاستراتيجيات الفردية التي من شأنها العمل ، والنظر في المسائل التالية التركيز.
1. ما هو نوع من المتعلم أنت؟
أم لا كنت في المدرسة ، أو في أي حالة التعلم ، وانها حيوية لفهم أسلوب التعلم الخاص بك. بعض التركيز والتذكر الأدوات سوف تعمل على نحو أفضل لك من مناطق أخرى. على سبيل المثال ، قد المتعلم البصرية العمل بشكل أفضل مع الترميز اللون أو قائمة القرارات على سبيل المثال.
2. أنت أفضل في صورة كبيرة أو تكون لديك مزيد من التفصيل المنحى؟
قبل إضافة أي فرد يمكن أن التركيز على ما يجب القيام به ، هو أو هي يجب أن ندرك لماذا يجب القيام به. القيمة الإجمالية يجب أن يكون واضحا ، ونحن ندعو إلى أن "شراء فيها." إذا كنت الصورة الكبيرة أو التفصيل المنحى ، وطرح الأسئلة لإثبات أن يشتري لك بالدخول مرة واحدة فهم الصورة الكبيرة ، وماذا كنت تعمل لتحقيق ذلك أنه من السهل الدخول إلى عقلك في هذه العملية.
3. بعض بيئات أفضل للالتركيز الخاص بك؟
بالنسبة لبعض الناس ، تماما الصمت تعمل بشكل جيد. يحتاج البعض الآخر أو 2 أو 3 مصادر الضجيج الأخرى -- مثل التلفزيون والراديو ، أو أجهزة أي بود -- إلى القيام بعمل أفضل.
بعض الناس رد فعل سلبيا على مصابيح الفلورسنت أو يفعلون أفضل إذا كان هناك تيار الهواء. أنت الأفضل في الهواء الطلق أو في الداخل؟ يمكنك التركيز بشكل أفضل في مساحة كبيرة أو في مساحة صغيرة؟
أشياء مختلفة ، وأحيانا مزيجا منها ، يمكن أن تدعم التركيز الخاص بك.
في بلدي الممارسة ، رأيت أن العلاجات رائحة معينة ، وأطعمة أو مشروبات أو ملاحق يمكن أن تساعد الفرد على الذهاب الى واسطة التركيز.
التفكير في الأسئلة التي كنت قد أعطيت لك. النظر في إجاباتك بدلا من "الحبوب السحرية" ، أو واحد يناسب جميع الحلول.
من الأفضل لك أن تفهم نفسك ، أو شخص ما أن تحاول مساعدة ، وأكثر سهولة ستجد حلولا فعالة.
أضف وأدهد : التركيز على الأطعمة.
عندما يتعلق الأمر في الغذاء ، وبعض الناس يريدون ان كلا الاتجاهين. انهم يريدون الحرية لتناول ما يريدون لكنهم لا يريدون قبول تشعبات للما يتناولونه.
ونحن نرى هذا في كل وقت الناس في المسائل المتصلة بالمواد الغذائية ، مثل مشاكل في الوزن ، والحساسية الغذائية أو مرض السكري ، ومع ذلك فإنها لا تغيير عاداتهم الغذائية. في بعض الأحيان ، فإنه يأخذ في الحياة الفعلية مؤلمة وتجربة الموت لشخص لمراقبة ما يأكلون ، أو على الأقل للتأكد من انها لا تأكل هذا النوع من الطعام مرة أخرى.
عندما حساسية الطعام هي خفية ، وانها يمكن تجاهلها بسهولة.
ومنذ عدة سنوات ، كنت أعمل مع شاب مع "أكثر من السلوكيات أعلى" إضافة. بالإضافة إلى ذلك ، اقول انه تم تشخيص توريت. اكتشفت أن لديه حساسية من القمح. منذ أن كان عمرها تسع سنوات فقط ، واعتادوا على تناول ما أراد ، لكنه لم يكن متحمسا للذهاب على نظام غذائي خال من القمح.
ومع ذلك ، في غضون أسابيع على نظام غذائي خال من القمح ، وقدراته ، إلى زيادة التركيز. له المفرط للطاقة المستوى أصبح أكثر سهولة. الناس من حوله كانوا سعداء أنه يبدو أن ندخل في مشاكل أقل. وحتى بعد أن توقفت عن التشنجات اللاإرادية المرتبطة بمتلازمة توريت. (وهذه التقلصات قد لا سيما محرجة. شعرت بسعادة غامرة وهو أن تكون خالية منها.)
Then, he spent a Memorial Day weekend with his grandparents. أصروا على أنه لا القاسية ليكون قادرا على تناول الطعام مثل الاطفال الاخرين فعلت ذلك ، وأنها رفضت له نظام غذائي خال من القمح.
في الوقت الذي شاب وصل منزله القضايا كانوا في طريق عودتهم ، ولكن في الصيف المقبل وكان والديه لم ترصد نظامه الغذائي. وقبل اليوم الأول من المدرسة في أيلول / سبتمبر ، كان الطفل عنيدا وعدنا إلى حيث بدأ. أسوأ من ذلك ، اتفق مع والديه وجديه ، وتساءل : "ما هو الخطأ معه مجرد تناول دوائه؟"
دقة من حساسية الطفل المقنعة على أهمية ذلك.
الآن ، وقبل نفاد القمح ويأخذ من النظام الغذائي الخاص بك ، وتذكر هذا : القمح قد لا يكون لديك مشكلة. قد يكون من الألبان أو ارتفاع سكر الفواكه شراب الذرة أو... والقائمة طويلة. كثير من الحساسية الغذائية المختلفة يمكن أن تؤدي إلى إضافة متضايق وأدهد السلوكيات.
لا نقلل من قوة النظام الغذائي. قد تحتاج إلى القضاء على الأشياء من نظامك الغذائي ، أو إضافة أشياء إلى ذلك ، أو على حد سواء. تماما كما حصل مع عملية الإزالة ، إضافة العناصر الغذائية يمكن ان تحدث فرقا هائلا.
تذكر أن التغييرات في النظم الغذائية قد تكون جزءا من بروتوكول أكبر. أنها قد تساعدك على تحسين وصول جميع الهدايا التي تأتي مع إضافة وأدهد ، ومواجهة التحديات منهم. النظام الغذائي ليس دائما هو الجواب ، وهذا نادرا ما هي القضية الوحيدة.
ولكن ، انه مكان جيد للبدء ، مع توجيه من ذوي الخبرة المهنية.
ونحن نرى هذا في كل وقت الناس في المسائل المتصلة بالمواد الغذائية ، مثل مشاكل في الوزن ، والحساسية الغذائية أو مرض السكري ، ومع ذلك فإنها لا تغيير عاداتهم الغذائية. في بعض الأحيان ، فإنه يأخذ في الحياة الفعلية مؤلمة وتجربة الموت لشخص لمراقبة ما يأكلون ، أو على الأقل للتأكد من انها لا تأكل هذا النوع من الطعام مرة أخرى.
عندما حساسية الطعام هي خفية ، وانها يمكن تجاهلها بسهولة.
ومنذ عدة سنوات ، كنت أعمل مع شاب مع "أكثر من السلوكيات أعلى" إضافة. بالإضافة إلى ذلك ، اقول انه تم تشخيص توريت. اكتشفت أن لديه حساسية من القمح. منذ أن كان عمرها تسع سنوات فقط ، واعتادوا على تناول ما أراد ، لكنه لم يكن متحمسا للذهاب على نظام غذائي خال من القمح.
ومع ذلك ، في غضون أسابيع على نظام غذائي خال من القمح ، وقدراته ، إلى زيادة التركيز. له المفرط للطاقة المستوى أصبح أكثر سهولة. الناس من حوله كانوا سعداء أنه يبدو أن ندخل في مشاكل أقل. وحتى بعد أن توقفت عن التشنجات اللاإرادية المرتبطة بمتلازمة توريت. (وهذه التقلصات قد لا سيما محرجة. شعرت بسعادة غامرة وهو أن تكون خالية منها.)
Then, he spent a Memorial Day weekend with his grandparents. أصروا على أنه لا القاسية ليكون قادرا على تناول الطعام مثل الاطفال الاخرين فعلت ذلك ، وأنها رفضت له نظام غذائي خال من القمح.
في الوقت الذي شاب وصل منزله القضايا كانوا في طريق عودتهم ، ولكن في الصيف المقبل وكان والديه لم ترصد نظامه الغذائي. وقبل اليوم الأول من المدرسة في أيلول / سبتمبر ، كان الطفل عنيدا وعدنا إلى حيث بدأ. أسوأ من ذلك ، اتفق مع والديه وجديه ، وتساءل : "ما هو الخطأ معه مجرد تناول دوائه؟"
دقة من حساسية الطفل المقنعة على أهمية ذلك.
الآن ، وقبل نفاد القمح ويأخذ من النظام الغذائي الخاص بك ، وتذكر هذا : القمح قد لا يكون لديك مشكلة. قد يكون من الألبان أو ارتفاع سكر الفواكه شراب الذرة أو... والقائمة طويلة. كثير من الحساسية الغذائية المختلفة يمكن أن تؤدي إلى إضافة متضايق وأدهد السلوكيات.
لا نقلل من قوة النظام الغذائي. قد تحتاج إلى القضاء على الأشياء من نظامك الغذائي ، أو إضافة أشياء إلى ذلك ، أو على حد سواء. تماما كما حصل مع عملية الإزالة ، إضافة العناصر الغذائية يمكن ان تحدث فرقا هائلا.
تذكر أن التغييرات في النظم الغذائية قد تكون جزءا من بروتوكول أكبر. أنها قد تساعدك على تحسين وصول جميع الهدايا التي تأتي مع إضافة وأدهد ، ومواجهة التحديات منهم. النظام الغذائي ليس دائما هو الجواب ، وهذا نادرا ما هي القضية الوحيدة.
ولكن ، انه مكان جيد للبدء ، مع توجيه من ذوي الخبرة المهنية.
وفي اشارة الى الهدوء ، وإدارة الصف وتقنيات حقا أن يعمل
في الوقت الذي يمضي الطلبة في الفصول الدراسية في الواقع تعمل على المواضيع الأكاديمية هي التي يشار اليها أحيانا "تشارك الوقت." تشارك هذه المرة هي قيمة جدا. الفصول المعلمين فرصة لمراقبة الطلاب بنشاط على حل المشاكل والعمل بشكل مستقل عن طريق الاحالة. من خلال ملائمة للرصد والمراقبة النشطة ، يمكن للمعلمين تحديد المهام التي ما الطلاب يواجهون صعوبة مع الطلاب ، وعندما يجري بنجاح.
seatwork مستقلة خلال العديد من الأطفال قد تكون الأسئلة لأنها تعمل من خلال المهام الموكلة إليها. لكن المفتاح الرئيسي لمعالجة هذه المسائل هو ان يكون سبق وضعها إجراء بسيط مع الطبقة ، حتى لا تزعج تعلم قيمة الوقت لبقية الطلاب.
في السيدة Suppes '3rd الفصول الدراسية في الصف ماركيت المدرسة الابتدائية ، وهي بسيطة" هادئة الاستجواب "تستخدم اجراءات اليومية. لها طريقة لمساعدة الطلاب الذين يحتاجون إلى مساعدة ، دون تعطيل بيئة التعلم ، هو استخدام العلم تقع على كل من مكاتبهم. هذا ببساطة صمم العلم (من "Flagbee") يمكن أن يكون حتى انقلبت على الدوار. إذا كان الطالب يحصل عالقا في مشكلة ويحتاج إلى مساعدة المعلمين ، ويجوز له أن يرفع العلم ، ولكن يجب الاستمرار في العمل. علم تستقيم يشير إلى أن هناك حاجة للمساعدة. هذه إشارة هادئة لمساعدة يقلل من الانحرافات والاختلالات.
وفي كثير من الأحيان السيدة Suppes يختار الانتظار بضع دقائق قبل أن تعالج على الفور لرفع العلم. هذا الأسلوب يسمح للأطفال وقتا إضافيا لمحاولة حل المشاكل بمفردها. في كثير من الحالات ، يمكن للطالب اختيار لانخفاض له أو لها علم بها دون تدخل المعلم ، لأنها قد ترد عليها من تلقاء نفسها.
جميع الطلاب الذين تم تدريبهم على الاستخدام الصحيح للمساعدة في إشارة إلى تدخل فئة واسعة ، وليس لتعاطي الأعلام. بعد نشر إشارة مساعدة ، يجب على الطالب الاستمرار في التحقق من خلال الاحالة العمل الحالي لمعرفة ما اذا كانت هناك مشاكل أخرى أو سلع أنه أو أنها يمكن أن تعمل في أثناء انتظار المعلمين.
هذا الهدوء استجواب الممارسة أثبتت أن تكون فعالة جدا في الصفوف الابتدائية. وتولت تصميم العلم والمربين ، وتدعم الممارسة أحدث التقنيات في إدارة الصفوف. فقد شجع الطلاب على البقاء في العمل في الوقت الذي تنتظر للحصول على المساعدة ، وساعد في الحفاظ على بيئة عمل مناسبة للجميع ، وتفضي إلى التعلم. يمكنك من أجل فصل دراسي مجموعة من Flagbees اليوم! زيارة موقعنا على http://www.flagbee.com
seatwork مستقلة خلال العديد من الأطفال قد تكون الأسئلة لأنها تعمل من خلال المهام الموكلة إليها. لكن المفتاح الرئيسي لمعالجة هذه المسائل هو ان يكون سبق وضعها إجراء بسيط مع الطبقة ، حتى لا تزعج تعلم قيمة الوقت لبقية الطلاب.
في السيدة Suppes '3rd الفصول الدراسية في الصف ماركيت المدرسة الابتدائية ، وهي بسيطة" هادئة الاستجواب "تستخدم اجراءات اليومية. لها طريقة لمساعدة الطلاب الذين يحتاجون إلى مساعدة ، دون تعطيل بيئة التعلم ، هو استخدام العلم تقع على كل من مكاتبهم. هذا ببساطة صمم العلم (من "Flagbee") يمكن أن يكون حتى انقلبت على الدوار. إذا كان الطالب يحصل عالقا في مشكلة ويحتاج إلى مساعدة المعلمين ، ويجوز له أن يرفع العلم ، ولكن يجب الاستمرار في العمل. علم تستقيم يشير إلى أن هناك حاجة للمساعدة. هذه إشارة هادئة لمساعدة يقلل من الانحرافات والاختلالات.
وفي كثير من الأحيان السيدة Suppes يختار الانتظار بضع دقائق قبل أن تعالج على الفور لرفع العلم. هذا الأسلوب يسمح للأطفال وقتا إضافيا لمحاولة حل المشاكل بمفردها. في كثير من الحالات ، يمكن للطالب اختيار لانخفاض له أو لها علم بها دون تدخل المعلم ، لأنها قد ترد عليها من تلقاء نفسها.
جميع الطلاب الذين تم تدريبهم على الاستخدام الصحيح للمساعدة في إشارة إلى تدخل فئة واسعة ، وليس لتعاطي الأعلام. بعد نشر إشارة مساعدة ، يجب على الطالب الاستمرار في التحقق من خلال الاحالة العمل الحالي لمعرفة ما اذا كانت هناك مشاكل أخرى أو سلع أنه أو أنها يمكن أن تعمل في أثناء انتظار المعلمين.
هذا الهدوء استجواب الممارسة أثبتت أن تكون فعالة جدا في الصفوف الابتدائية. وتولت تصميم العلم والمربين ، وتدعم الممارسة أحدث التقنيات في إدارة الصفوف. فقد شجع الطلاب على البقاء في العمل في الوقت الذي تنتظر للحصول على المساعدة ، وساعد في الحفاظ على بيئة عمل مناسبة للجميع ، وتفضي إلى التعلم. يمكنك من أجل فصل دراسي مجموعة من Flagbees اليوم! زيارة موقعنا على http://www.flagbee.com
والخطوة الأولى نحو جيد المهارات الحاسوبية
ربما كنت غير راض عن مهاراتك الحسابية. إذا كنت ترغب في تحسينها ، والتحقق من جودة كلماتك العقلية الحسابية البسيطة الأولى. وأظل في عرض بسيط بالإضافة العقلية والطرح في حدود 20 ، بسيطة الضرب والقسمة العقلية في حدود 100. الجميع يعرف هذه العمليات يجب أن تتم بشكل صحيح وسريع. ولكن كيف يمكننا قياس دقة وسرعة لتنفيذها؟ ذلك لغرض يمكنك استخدام الجداول البسيطة التي يمكن أن يدعى العشوائية.
يمكنك وضع هذه الجداول نفسك ، ولكن لا نضيع الوقت. تأخذ الجداول مجانا في موقعي منع الفشل في مدرسة الرياضيات. هناك احتمالان للحصول عليها : ملف وورد (TablesWord) وبرنامج كمبيوتر (PrintTables). ويسمح البرنامج لطباعة جداول فارغة على حد سواء ، وقوائم مرجعية بالنسبة لهم (الجداول نفسها ولكن مع الأجوبة). قوائم المراجعة سوف تساعدك على العثور على أخطاء. وعلاوة على ذلك تحتاج إلى ساعة التوقيف لقياس الوقت الحالي.
كل جدول يحتوي على 64 عمليات موحدة الابتدائية على واحدة من القواعد الحسابية -- الجمع والطرح والضرب أو القسمة. واسم هذه الجداول العشوائية ، لأن تسلسل addends ، المطروحات الخ اختيروا عن طريق الصدفة. اختيار عرضية من الأعداد المطلوبة يحاكي مظهر عفوي العمليات المقابلة في الحسابات العادية.
حالما تحصل على الجداول ، ويمكنك أن تبدأ في دراسة نوعية المهارات الخاصة بك. أخذ أحد الجداول ، والتبديل على جهاز توقيت ، في ملء الجدول ، إيقاف ساعة توقيت وأكتب في الوقت الحالي. ثم طباعة المرجعية المناظرة ، والتحقق من إجاباتك وكتابة عدد من أخطائك. الآن يمكنك أن تجد ما إذا كان لديك مهارات كافية للسيد الحسابية أكثر تعقيدا أم لا. إذا كنت أكثر من 12 عاما ، والمعايير التي يتم المقبل.
مهاراتك هي من الدرجة الأولى إذا كانت هناك أية أخطاء ، وادارة الوقت هو :
بالإضافة إلى ذلك على -- وليس أكثر من 2 دقيقة و 25 ثانية ؛
على الطرح -- وليس أكثر من 2 دقيقة 30 ثانية ؛
على الضرب -- ليس أكثر من 2 دقائق و 20 ثانية ؛
على التقسيم -- ليس أكثر من 2 دقيقة 10 ثانية.
لديك مهارات جيدة اذا لم تكن هناك أخطاء وادارة الوقت هو :
بالإضافة إلى ذلك على -- وليس أكثر من 3 دقائق 55 ثانية ؛
على الطرح -- وليس أكثر من 4 دقائق و 00 ثانية ؛
على الضرب -- ليس أكثر من 3 دقائق و 35 ثانية ؛
على التقسيم -- ليس أكثر من 2 دقيقة و 50 ثانية.
مهاراتك مرضية إذا لم يكن هناك أكثر من 1 الخطأ والوقت الذي يستخدم هو :
بالإضافة إلى ذلك على -- وليس أكثر من 4 دقائق و 50 ثانية ؛
على الطرح -- وليس أكثر من 5 دقائق 00 ثانية ؛
على الضرب -- وليس أكثر من 4 دقائق و 20 ثانية ؛
على التقسيم -- وليس أكثر من 3 دقائق و 35 ثانية.
مهاراتك غير مستقرة (وبالكاد يكفي لإتقان العمليات الحسابية أكثر تعقيدا) اذا لم تكن هناك أكثر من 2 الأخطاء وادارة الوقت هو :
بالإضافة إلى ذلك على -- وليس اكثر من 6 دقائق 55 ثانية ؛
على الطرح -- وليس أكثر من 7 دقائق 15 ثانية ؛
على الضرب -- ليس أكثر من 5 دقائق 55 ثانية ؛
على التقسيم -- وليس أكثر من 5 دقائق 10 ثانية.
مهاراتك سيئة في جميع الحالات الأخرى -- التي قمت بها أكثر من 2 أخطاء أو يشغل في الوقت يتغلب على القيم للمهارات غير مستقرة.
إذا كنت تظهر نتائج سيئة ، لا يوجد لديك فرصة لإتقان العمليات الحسابية أكثر تعقيدا. إذا كان لديك نتائج غير مستقرة ، وسوف يكون لديك صعوبات كبيرة. ربما لديك منهم بالفعل. ولكن لا نفقد الأمل. يمكنك بسهولة تحسين الوضع.
تأخذ الجداول مرة ثانية (هناك إصدارات 20). في ملء الجداول ، وقياس الوقت تشغيل ، والتحقق من الإجابات. قريبا سوف نرى مهاراتك تصبح أفضل. لا تكف عن العمل على مستوى مرض ، وحتى على مستوى جيد. يمكنك القيام على نحو أفضل! أول المهارات معدل -- وهذا هو هدفك. يمكنك الفوز والحصول على الجائزة مفيدة جدا -- امكانية لإتقان جيدا حسابات أكثر تعقيدا.
بالنسبة للأطفال الذين هم من العمر 12 عاما أو أصغر سنا أنا قائمة معايير لأول المهارات معدل فقط. مزيد من الأرقام التفصيلية ستتلقى مع الجداول. طبعا أول المهارات معدل استبعاد الأخطاء. لذا تحتاج فقط قيم يشغل الوقت.
8 سنوات : بالإضافة إلى ذلك -- 5 دقائق ؛ الطرح -- 5 دقيقة 5 ثانية ؛ الضرب -- 4 دقائق و 35 ثانية ؛ التقسيم -- 3 دقيقة 55 ثانية.
9 سنوات من العمر : بالإضافة إلى ذلك -- 4 دقائق و 40 ثانية ؛ الطرح -- 4 دقائق و 45 ثانية ؛ الضرب -- 4 دقائق و 15 ثانية ؛ التقسيم -- 3 دقائق و 35 ثانية.
10 سنة : بالإضافة إلى ذلك -- 3 دقائق و 40 ثانية ؛ الطرح -- 3 دقائق و 45 ثانية ؛ الضرب -- 3 دقيقة 15 ثانية ؛ التقسيم -- 2 دقيقة و 35 ثانية.
11 سنة : بالإضافة إلى ذلك -- 3 دقائق و 20 ثانية ؛ الطرح -- 3 دقائق و 25 ثانية ؛ الضرب -- 2 دقيقة 55 ثانية ؛ التقسيم -- 2 دقيقة و 20 ثانية.
12 سنة : بالإضافة إلى ذلك -- 2 دقيقة و 40 ثانية ؛ الطرح -- 2 دقيقة و 45 ثانية ؛ الضرب -- 2 دقيقة 30 ثانية ؛ التقسيم -- 2 دقيقة 15 ثانية.
حالما تصل إلى مستوى الدرجة الأولى ، وسترون ان العمليات مع الأرقام التي أعرب عنها عدد من الشخصيات ، وعام الكسور العشرية الخ ليست صعبة للغاية والمروعة ، تماما كما كانت تبدو قبل.
يمكنك وضع هذه الجداول نفسك ، ولكن لا نضيع الوقت. تأخذ الجداول مجانا في موقعي منع الفشل في مدرسة الرياضيات. هناك احتمالان للحصول عليها : ملف وورد (TablesWord) وبرنامج كمبيوتر (PrintTables). ويسمح البرنامج لطباعة جداول فارغة على حد سواء ، وقوائم مرجعية بالنسبة لهم (الجداول نفسها ولكن مع الأجوبة). قوائم المراجعة سوف تساعدك على العثور على أخطاء. وعلاوة على ذلك تحتاج إلى ساعة التوقيف لقياس الوقت الحالي.
كل جدول يحتوي على 64 عمليات موحدة الابتدائية على واحدة من القواعد الحسابية -- الجمع والطرح والضرب أو القسمة. واسم هذه الجداول العشوائية ، لأن تسلسل addends ، المطروحات الخ اختيروا عن طريق الصدفة. اختيار عرضية من الأعداد المطلوبة يحاكي مظهر عفوي العمليات المقابلة في الحسابات العادية.
حالما تحصل على الجداول ، ويمكنك أن تبدأ في دراسة نوعية المهارات الخاصة بك. أخذ أحد الجداول ، والتبديل على جهاز توقيت ، في ملء الجدول ، إيقاف ساعة توقيت وأكتب في الوقت الحالي. ثم طباعة المرجعية المناظرة ، والتحقق من إجاباتك وكتابة عدد من أخطائك. الآن يمكنك أن تجد ما إذا كان لديك مهارات كافية للسيد الحسابية أكثر تعقيدا أم لا. إذا كنت أكثر من 12 عاما ، والمعايير التي يتم المقبل.
مهاراتك هي من الدرجة الأولى إذا كانت هناك أية أخطاء ، وادارة الوقت هو :
بالإضافة إلى ذلك على -- وليس أكثر من 2 دقيقة و 25 ثانية ؛
على الطرح -- وليس أكثر من 2 دقيقة 30 ثانية ؛
على الضرب -- ليس أكثر من 2 دقائق و 20 ثانية ؛
على التقسيم -- ليس أكثر من 2 دقيقة 10 ثانية.
لديك مهارات جيدة اذا لم تكن هناك أخطاء وادارة الوقت هو :
بالإضافة إلى ذلك على -- وليس أكثر من 3 دقائق 55 ثانية ؛
على الطرح -- وليس أكثر من 4 دقائق و 00 ثانية ؛
على الضرب -- ليس أكثر من 3 دقائق و 35 ثانية ؛
على التقسيم -- ليس أكثر من 2 دقيقة و 50 ثانية.
مهاراتك مرضية إذا لم يكن هناك أكثر من 1 الخطأ والوقت الذي يستخدم هو :
بالإضافة إلى ذلك على -- وليس أكثر من 4 دقائق و 50 ثانية ؛
على الطرح -- وليس أكثر من 5 دقائق 00 ثانية ؛
على الضرب -- وليس أكثر من 4 دقائق و 20 ثانية ؛
على التقسيم -- وليس أكثر من 3 دقائق و 35 ثانية.
مهاراتك غير مستقرة (وبالكاد يكفي لإتقان العمليات الحسابية أكثر تعقيدا) اذا لم تكن هناك أكثر من 2 الأخطاء وادارة الوقت هو :
بالإضافة إلى ذلك على -- وليس اكثر من 6 دقائق 55 ثانية ؛
على الطرح -- وليس أكثر من 7 دقائق 15 ثانية ؛
على الضرب -- ليس أكثر من 5 دقائق 55 ثانية ؛
على التقسيم -- وليس أكثر من 5 دقائق 10 ثانية.
مهاراتك سيئة في جميع الحالات الأخرى -- التي قمت بها أكثر من 2 أخطاء أو يشغل في الوقت يتغلب على القيم للمهارات غير مستقرة.
إذا كنت تظهر نتائج سيئة ، لا يوجد لديك فرصة لإتقان العمليات الحسابية أكثر تعقيدا. إذا كان لديك نتائج غير مستقرة ، وسوف يكون لديك صعوبات كبيرة. ربما لديك منهم بالفعل. ولكن لا نفقد الأمل. يمكنك بسهولة تحسين الوضع.
تأخذ الجداول مرة ثانية (هناك إصدارات 20). في ملء الجداول ، وقياس الوقت تشغيل ، والتحقق من الإجابات. قريبا سوف نرى مهاراتك تصبح أفضل. لا تكف عن العمل على مستوى مرض ، وحتى على مستوى جيد. يمكنك القيام على نحو أفضل! أول المهارات معدل -- وهذا هو هدفك. يمكنك الفوز والحصول على الجائزة مفيدة جدا -- امكانية لإتقان جيدا حسابات أكثر تعقيدا.
بالنسبة للأطفال الذين هم من العمر 12 عاما أو أصغر سنا أنا قائمة معايير لأول المهارات معدل فقط. مزيد من الأرقام التفصيلية ستتلقى مع الجداول. طبعا أول المهارات معدل استبعاد الأخطاء. لذا تحتاج فقط قيم يشغل الوقت.
8 سنوات : بالإضافة إلى ذلك -- 5 دقائق ؛ الطرح -- 5 دقيقة 5 ثانية ؛ الضرب -- 4 دقائق و 35 ثانية ؛ التقسيم -- 3 دقيقة 55 ثانية.
9 سنوات من العمر : بالإضافة إلى ذلك -- 4 دقائق و 40 ثانية ؛ الطرح -- 4 دقائق و 45 ثانية ؛ الضرب -- 4 دقائق و 15 ثانية ؛ التقسيم -- 3 دقائق و 35 ثانية.
10 سنة : بالإضافة إلى ذلك -- 3 دقائق و 40 ثانية ؛ الطرح -- 3 دقائق و 45 ثانية ؛ الضرب -- 3 دقيقة 15 ثانية ؛ التقسيم -- 2 دقيقة و 35 ثانية.
11 سنة : بالإضافة إلى ذلك -- 3 دقائق و 20 ثانية ؛ الطرح -- 3 دقائق و 25 ثانية ؛ الضرب -- 2 دقيقة 55 ثانية ؛ التقسيم -- 2 دقيقة و 20 ثانية.
12 سنة : بالإضافة إلى ذلك -- 2 دقيقة و 40 ثانية ؛ الطرح -- 2 دقيقة و 45 ثانية ؛ الضرب -- 2 دقيقة 30 ثانية ؛ التقسيم -- 2 دقيقة 15 ثانية.
حالما تصل إلى مستوى الدرجة الأولى ، وسترون ان العمليات مع الأرقام التي أعرب عنها عدد من الشخصيات ، وعام الكسور العشرية الخ ليست صعبة للغاية والمروعة ، تماما كما كانت تبدو قبل.
التواصل مع الأطفال الصغار
الكبار في كثير من الأحيان بالإحباط عند الاتصال مع الأطفال الصغار.
الآباء والمعلمين كثيرا ما يسألني : "هل نحن حقا التواصل؟ هل تفهمني؟ هل أنا حقا فهم لهم؟"
الأطفال ، وبخاصة الأطفال الصغار ، لا نزال نتعلم كيفية استخدام الكلمات. مهاراتهم الاتصالية هي جديدة نسبيا. اللغة قد تكون آخر قطعة أضاف كطفل يحل لغز الاتصالات.
تعلم الكلمات والجمل ومهارة أصعب بكثير من مجموعة المحاكاة أو الايماء.
الآباء عادة الرضع فهم احتياجات الطفل من التعبير في الوجه ، أو لهجة له أو لها البكاء.
في وقت لاحق ، والكبار رؤية أكثر وضوحا شفهي الاتصال في الأطفال ، وتشجيعهم. على سبيل المثال ، فإن معظم الآباء الصغار يتعلمون بسرعة ما "وي وي" يشبه الرقص ، والاندفاع لمساعدة الطفل إلى الحمام.
لطفل صغير ، يمكن أن يكون أسهل للاستخدام لغة الجسد أو العواطف الشاشة ، بدلا من محاولة للعثور على الكلمات الصحيحة. لطفل صغير ، يمكن أن تكون اللغة المرهقة ، فكريا تستهلك عملية التفكير.
وتتفاقم المشكلة إذا كان الطفل باستمرار مع تصحيح "بناءة" نقد مثل : "لا ، هذه الكلمة هو واضح أو..."." لم أقصد أن أقول لك...؟"
حتى الكبار ، ونحن في بعض الأحيان في خسارة للكلمات الحق. في حالة عاطفيا أو جسديا الساحقة ، لا يمكن لنا تعجز الكلمات. لطفل صغير يحاول الاتصال ، التي يمكن أن تكون صراعا يوميا.
كثير من المتعلمين الصغار يواجهون صعوبات مع الفروق الدقيقة في اللغة. على سبيل المثال ، "جدا" و "اثنان" السليمة على حد سواء ولكن تعني أشياء مختلفة. وبالمثل ، لديك نبرة صوته عندما قال : "أوه ، عظيم ،" يمكن أن تغير تماما القصد من الكلمات. بك تعبيرات -- في محاولة لكبت ضحكته حين تأنيب الطفل -- يمكن أن تزيد من صعوبات التواصل مع الأطفال.
الأطفال الصغار محيرة كيف يتم استخدام الكلمات وما يعني أنها في بيئات مختلفة. ومع ذلك ، حتى أنهم يعتقدون أن لديهم الحق ، فإنها قد تكون مترددة في استخدام الكلمات.
في السنوات الأخيرة ، شهدنا نجاحا كبيرا في العمل مع صعوبات التواصل في مرحلة الطفولة. بعض خيارات الاتصال للأطفال تتضمن لغة الإشارة للأطفال preverbal. هذا يعتمد على مهارات الاتصال والثقة في حين انهم تعلم استخدام الكلمات.
تبقي هذه النصائح في الاعتبار عند التواصل مع الأطفال من كل الأعمار :
1. يتكلمون دائما في عصر الطريقة المناسبة للطفل.
2. نخلط أبدا أن يتحدث مع أسفل أو بشكل متنازل. الأطفال سوف نعرف / الإحساس به.
3. البحث عن كافة الطرق المختلفة للطفل هو التواصل. ويمكن أن تشمل هذه التغييرات في العادات. انه أو انها قد تستخدم رسومات أو الرسومات للتعبير عن المشاعر. أو ، قد تلاحظ زيادة حساسية أو الانسحاب.
4. إذا كان أكثر أمانا بالنسبة لهم للحديث عن طريق صديق وهمي أو الحيوان الاشياء ، والسماح لهم بذلك. عندما نستمع لطفل يقول : "يا صديقي جوني يقول...". أو" كيتي القط لا يحب... "
5. Don't try to rush communications, or push a child to talk until he or she is ready to.
6. قبل التحدث مع طفلك ، ودائما تأكد انك في المحبة ، والمزاج تقبلا. أبدا القاضي. تستغل كل فرصة لتعليم طفلك كيفية التفكير ، وليس ما يفكر.
إنه من الطبيعي أن يشعر بالاحباط عندما التواصل مع الأطفال الصغار. هذا لا يعني أن أيا من كان لديك اضطراب الاتصالات. من خلال فهم التحديات الاتصالات التي تواجه الأطفال الصغار ، يمكنك العثور على سبل لاجراء محادثات ، لفظيا وبشكل لا شفهي.
مع الصبر والإبداع على كلا الجانبين ، ويمكن لك ولطفلك على التغلب على معظم الصعوبات الاتصالات. وقال مستشار أو وسيط يمكن أن تساعد ، إذا لزم الأمر ، ولكن الممارسة والصبر والتفاهم يمكن أن يكون فعالا الخطوات الأولى.
نبذة عن الكاتب
الدكتور كيفن روس اميري هو مستشار الأسرة ومؤلف كتاب "إدارة وهبة : النهج البديلة لاضطراب نقص الانتباه." الدكتور كيفن يسافر دوليا ، وتقديم المحاضرات وورش العمل التي تساعد المعلمين والآباء والأطفال. كما انه يساعد على اقامة داعمة ، غير البروتوكولات الطبية للأطفال والكبار مع إضافة وأدهد. الدكتور كيفن والممارسات الأساسية هي في بورتلاند بولاية مين وHaverhill ، ماساشوستس. زيارة موقعه على الانترنت ، http://www.weboflight.com
الآباء والمعلمين كثيرا ما يسألني : "هل نحن حقا التواصل؟ هل تفهمني؟ هل أنا حقا فهم لهم؟"
الأطفال ، وبخاصة الأطفال الصغار ، لا نزال نتعلم كيفية استخدام الكلمات. مهاراتهم الاتصالية هي جديدة نسبيا. اللغة قد تكون آخر قطعة أضاف كطفل يحل لغز الاتصالات.
تعلم الكلمات والجمل ومهارة أصعب بكثير من مجموعة المحاكاة أو الايماء.
الآباء عادة الرضع فهم احتياجات الطفل من التعبير في الوجه ، أو لهجة له أو لها البكاء.
في وقت لاحق ، والكبار رؤية أكثر وضوحا شفهي الاتصال في الأطفال ، وتشجيعهم. على سبيل المثال ، فإن معظم الآباء الصغار يتعلمون بسرعة ما "وي وي" يشبه الرقص ، والاندفاع لمساعدة الطفل إلى الحمام.
لطفل صغير ، يمكن أن يكون أسهل للاستخدام لغة الجسد أو العواطف الشاشة ، بدلا من محاولة للعثور على الكلمات الصحيحة. لطفل صغير ، يمكن أن تكون اللغة المرهقة ، فكريا تستهلك عملية التفكير.
وتتفاقم المشكلة إذا كان الطفل باستمرار مع تصحيح "بناءة" نقد مثل : "لا ، هذه الكلمة هو واضح أو..."." لم أقصد أن أقول لك...؟"
حتى الكبار ، ونحن في بعض الأحيان في خسارة للكلمات الحق. في حالة عاطفيا أو جسديا الساحقة ، لا يمكن لنا تعجز الكلمات. لطفل صغير يحاول الاتصال ، التي يمكن أن تكون صراعا يوميا.
كثير من المتعلمين الصغار يواجهون صعوبات مع الفروق الدقيقة في اللغة. على سبيل المثال ، "جدا" و "اثنان" السليمة على حد سواء ولكن تعني أشياء مختلفة. وبالمثل ، لديك نبرة صوته عندما قال : "أوه ، عظيم ،" يمكن أن تغير تماما القصد من الكلمات. بك تعبيرات -- في محاولة لكبت ضحكته حين تأنيب الطفل -- يمكن أن تزيد من صعوبات التواصل مع الأطفال.
الأطفال الصغار محيرة كيف يتم استخدام الكلمات وما يعني أنها في بيئات مختلفة. ومع ذلك ، حتى أنهم يعتقدون أن لديهم الحق ، فإنها قد تكون مترددة في استخدام الكلمات.
في السنوات الأخيرة ، شهدنا نجاحا كبيرا في العمل مع صعوبات التواصل في مرحلة الطفولة. بعض خيارات الاتصال للأطفال تتضمن لغة الإشارة للأطفال preverbal. هذا يعتمد على مهارات الاتصال والثقة في حين انهم تعلم استخدام الكلمات.
تبقي هذه النصائح في الاعتبار عند التواصل مع الأطفال من كل الأعمار :
1. يتكلمون دائما في عصر الطريقة المناسبة للطفل.
2. نخلط أبدا أن يتحدث مع أسفل أو بشكل متنازل. الأطفال سوف نعرف / الإحساس به.
3. البحث عن كافة الطرق المختلفة للطفل هو التواصل. ويمكن أن تشمل هذه التغييرات في العادات. انه أو انها قد تستخدم رسومات أو الرسومات للتعبير عن المشاعر. أو ، قد تلاحظ زيادة حساسية أو الانسحاب.
4. إذا كان أكثر أمانا بالنسبة لهم للحديث عن طريق صديق وهمي أو الحيوان الاشياء ، والسماح لهم بذلك. عندما نستمع لطفل يقول : "يا صديقي جوني يقول...". أو" كيتي القط لا يحب... "
5. Don't try to rush communications, or push a child to talk until he or she is ready to.
6. قبل التحدث مع طفلك ، ودائما تأكد انك في المحبة ، والمزاج تقبلا. أبدا القاضي. تستغل كل فرصة لتعليم طفلك كيفية التفكير ، وليس ما يفكر.
إنه من الطبيعي أن يشعر بالاحباط عندما التواصل مع الأطفال الصغار. هذا لا يعني أن أيا من كان لديك اضطراب الاتصالات. من خلال فهم التحديات الاتصالات التي تواجه الأطفال الصغار ، يمكنك العثور على سبل لاجراء محادثات ، لفظيا وبشكل لا شفهي.
مع الصبر والإبداع على كلا الجانبين ، ويمكن لك ولطفلك على التغلب على معظم الصعوبات الاتصالات. وقال مستشار أو وسيط يمكن أن تساعد ، إذا لزم الأمر ، ولكن الممارسة والصبر والتفاهم يمكن أن يكون فعالا الخطوات الأولى.
نبذة عن الكاتب
الدكتور كيفن روس اميري هو مستشار الأسرة ومؤلف كتاب "إدارة وهبة : النهج البديلة لاضطراب نقص الانتباه." الدكتور كيفن يسافر دوليا ، وتقديم المحاضرات وورش العمل التي تساعد المعلمين والآباء والأطفال. كما انه يساعد على اقامة داعمة ، غير البروتوكولات الطبية للأطفال والكبار مع إضافة وأدهد. الدكتور كيفن والممارسات الأساسية هي في بورتلاند بولاية مين وHaverhill ، ماساشوستس. زيارة موقعه على الانترنت ، http://www.weboflight.com
التعلم من خلال المفردات ولغز النص
التعلم من خلال المفردات ولغز النص
رأي الشعبي | طباعة
بواسطة : A.Z
آراء المجموع : 0
كلمة حساب : 8638
التاريخ : الاثنين 24 أغسطس 2009 التوقيت : 3:15
0 تعليقات
مجردة
العديد من الدراسات التي أجريت على تطوير استراتيجيات جديدة لتعلم المفردات. الآثار المترتبة على استراتيجيات اثنين من عرض ، والتي شملت تعلم المفردات من خلال النص ، وقبل الانتهاء من الألغاز المحيرة هي مقارنة في هذه الدراسة. في هذه الدراسة 40 طالبا الايرانية الانكليزية قسمت إلى مجموعات 2. 70 الكلمات الجديدة التي تم اختيارها هي نفسها لكلا الفريقين مع أن أسلوب التدريس يجري مختلفة لكل مجموعة. دورات أجريت على أساس أسبوعي. بيانات تم جمعها على مدى فترة زمنية تقل عن 2 اشهر. تحليل النتائج تبين أن أيا من هذه المجموعات أداء أفضل بكثير من غيرها. الدرجات التي تحققت في مرحلة ما قبل الاختبارات وبعد انتهاء الاختبارات أظهرت أن تعلم المفردات ونفس القدر من الفعالية لكل من النص وأساليب اللغز.
الكلمات الرئيسية : تعليم المفردات والكلمات الجديدة ، وقراءة النص ، واللغز
مقدمة
العديد من الطلاب من مشاكل في التعلم والمفردات ، وأنه يعتبر نوعا من يطالب عملية لهم. ولكن تعلم اللغة الثانية المفردات هو ضروري لم المتعلمين ، وذلك لأن المشاكل معجمية تتداخل مع الاتصالات والطلاب على دراية بأن توقف عن الاتصال عندما تفتقر الكلمات اللازمة.
تعلم المفردات يمكن أن تتم من خلال الطرق المختلفة التي إما أن تكون عرضية أو متعمدة. العديد من الاستراتيجيات المختلفة تعتبر من تعلم الكلمات النثرية. المفردات من خلال تعلم القراءة هو نوع من التعلم العرضي في المفردات التي المتعلم يحاول تخمين معنى الكلمات الجديدة من خلال الادلة المتوفرة في النص. التعلم من خلال المفردات اللغز هو المقصود التعلم في المفردات التي انتباه المتعلم بشكل مباشر يركز على تعلم كلمات جديدة. العديد من الدراسات التي أجريت من أجل توفير بعض الاستراتيجيات الجيدة في تعلم المفردات. هذه الدراسة هو عدم إدخال استراتيجيات مختلفة للتعلم المفردات ، ولكن لدراسة تأثير طريقتين مختلفتين لتعليم المفردات على مدى التعلم. لهذا الغرض نفس الكلمات التي تم اختيارها. أنها أدخلت إلى اثنين من الطلاب من خلال استراتيجيات مختلفة تدريس المفردات. كلاهما قدم في التالية.
اثنين من الاستراتيجيات المستخدمة في هذه الدراسة :
واحدة من هذه الاستراتيجيات هو تعلم كلمات جديدة من خلال النص والتخمين معنى الكلمات الجديدة وغيرها من واحد هو كلمة اللعب ، وهذا هو ، تعلم كلمات جديدة من خلال الكلمات المتقاطعة وتدافعت الكلمات. الاستراتيجية الأولى هي أن أعرض بعض النصوص للطلاب وتشجيعهم على تخمين معنى الكلمات الجديدة من خلال قراءة النص واستخدام القرائن. عبارة جديدة غير معروفة هي المائل ، وأبرزت لزيادة الوعي.
وفقا لاتس [تف] ، والقبور ، والكلمات التي تستخدم في سياقات مختلفة. أحيانا تكون واضحة المعالم ، ومعظمهم من القرائن في النص يمكن أن تساعد المتعلمين على فهم معنى الكلمات. هذه القرائن السياق تحدث في أجزاء مختلفة من النص في أشكال مختلفة. كانت تقع قبل او بعد عبارة جديدة غير معروفة. أفضل القرائن هي تلك التي تقع في نفس الجمل ولكن في بعض الأحيان ، حلولا مفيدة هي في الجمل التالية ، أو غيرها من والفقرات. وفقا لهذه القرائن ، يمكن للطلاب تخمين معنى الكلمات الجديدة.
يميل المفردات من خلال النص هو مفيد في أن الحفظ عن ظهر قلب معنى الكلمات الجديدة على أساس القواميس لا يجعل الطلاب على دراية استخدام الكلمات في سياقات. القضية مهما لا بد أن يلاحظ في هذه الاستراتيجية هي أنه ينبغي أن يكون الطلاب قادرين على التفريق بين معنى النص كله ، وحتى هذه الاستراتيجية تستخدم في الغالب للمتعلمين المتقدمة وأولئك القادرين على فهم المعنى العام للنص من خلال معروفة الكلمات. هذه الاستراتيجية تساعد الطلاب للحصول على دراية استخدام الكلمات في سياقات مختلفة ، حتى يتمكنوا من استخدام هذه الكلمات بشكل منتظم في الكتابة والتحدث والكلمات لا تعود إلى الطلاب المفردات السلبية.
البحوث وقد أنجز الكثير للتحقيق في مدى تعلم المفردات من خلال النصوص ، وعلى أهمية استراتيجيات التخمين في قراءة النص. دراسات مثل ليو والأمة (1984) ، ناجي وآخرون (1984) وماكيون (1985) قد أظهرت أن يمكن الطلاب من تعلم كلمات جديدة عن طريق تخمين معنى الكلمات الجديدة من خلال النصوص. في دراستهم ناجي وآخرون. (1985) أظهرت أن تعلم المفردات يتأثر النص قراءة وتخمين معنى الكلمات الجديدة من خلال السياق. كما ذكر ان الطلاب الاكبر سنا يمكن أن تتعلم بشكل أفضل من خلال هذه الاستراتيجية. مكيون وآخرون (1985) ، كما في الدراسة التي أجريت في غضون اسبوعين ، وأظهرت أن التعرض للسياقات واسعة أكثر أمر مفيد للغاية ومفيدة في تعلم المفردات. كل من هذه الدراسات أظهرت أن قراءة النص والسياق تلعب دورا هاما جدا في تعلم المفردات.
الاستراتيجية الثانية هي لإدخال كلمات جديدة للطلاب من خلال الألغاز. فك رموز الكلمات المتقاطعة يتطلب الهجاء ، والذي قد يعني للطلاب والتدريب على مهارات القاموس. الطلاب يمكن توسيع نطاق هذه المفردات من خلال اللعب على الكلام. وقد أظهرت الدراسات أن تلعب كلمة يجعل الطلاب أكثر نشاطا وانهم يتمتعون التعلم. في هذه الاستراتيجية هو العقل شباكها. المتعلمين على تحسين الذاكرة ، والهجاء ، والمنطق ، والهجاء ، وكذلك زيادة مهارات حل المشاكل.
إلى أي حل الكلمات المتقاطعة ، يجب على الشخص أن يكون قادرا على تحديد وفهم المصطلحات المستخدمة. هذا غالبا ما ينطوي على اكتساب المفردات الجديدة. حل اللغز هو نوع من النموذج النشط للتعلم. الكلمات المتقاطعة لقد عانى العالم باعتبارها هواية مفضلة لأنها واسعة نداء لجميع الأعمار ، ويمكن إتمامها في غضون فترة قصيرة من الزمن ، وحلها يوفر شعورا بالإنجاز. لهذه الأسباب جميعا ، جعل الكلمات المتقاطعة أداة رائعة التعليمية ، والمعلمين سيستمر على الارجح لاستخدامها لسنوات عديدة قادمة.
في تقريره المنوي 1979 مادة حول الموضوع من خلال المفردات والألغاز ، Danesi توضح بعض الأسباب التي الألغاز ينبغي اعتبار الأنشطة التكميلية قابلة للحياة في تدريس اللغات ، ويبدو أن هذا المنطق لا يزال ينطبق اليوم. Danesi يدعي ان معظم الناس يتمتعون التحدي المتمثل في حل الألغاز التي لا الطلب حسابات متقدمة أو مهارات تقنية محددة. مع ضمان أن المتعلمين تجد الطبقة المادية قد لا تكون ممتعة ضرورة مطلقة لتقنية لتكون فعالة ، إذا كان هذا النشاط يمكن أن تكون مرحة وتعليمية في الوقت نفسه ، يبدو من المعقول الوحيد للاستفادة من هذه المجموعة نوعا فريدا من التعليم والتعلم الظروف في الفصول الدراسية.
أسئلة البحث
الأسئلة التالية البحوث تم التحقيق :
1) هل تعلم المفردات من خلال النص أكثر فعالية من التعلم من خلال المفردات لغز مساعدة في فهم معنى الكلمة؟
2) هل تعلم المفردات من خلال النص أكثر فعالية من التعلم من خلال المفردات لغز مساعدة في الإبقاء على معنى الكلمة؟
منهجية البحث
المشاركون
وكان المشاركون التغذية بالكهرباء 40 طالبا (75 ٪ إناث و 25 ٪ للذكور) في واحدة من الجامعات بايام نور من ايران. معظم الطلاب يدرسون في الفصل الثالث من دورة اللغة الانجليزية وكان قد درس اللغة الإنجليزية لمدة سنتين اعتبارا من الدورة الأكاديمية. متوسط العمر من المواضيع من العمر 20 عاما.
المواد والطرق
للتعليم للطلاب ، و 70 الكلمات مع ارتفاع مستوى صعوبة تم اختيارها. للعثور على ما إذا كان الطلاب يعرفون معنى الكلمات المختارة أو لا ، وهي تظاهرة اعطيت لهم. في تظاهرة وشملت 20 اختيارها عشوائيا الكلمات التي كانت عينة من 70 الكلمات كلها التي كان من المفترض أن تدرس من خلال البرنامج.
معظم الطلاب لم يتمكنوا من الإجابة على الأسئلة تظاهرة حتى تقديم الأوراق إلى المعلم في وقت قريب جدا دون أي إجابات على أوراق الإجابة. ليس هناك مهلة زمنية للرد على الأسئلة. اختبارات صممت بطريقة الكلمات الجديدة التي شكلت على الأسئلة. The correct answers were shown along with some simple distracting words, so that students could find the correct answers unequivocally if they were familiar with the new words presented in the questions. الطلاب كانوا على علم بأن كل إجابة خاطئة من شأنه أن يكون له تأثير سلبي على نتائجهم بسبب تصحيح لالتخمين تم القيام به.
ونتيجة لهذه الخيارات المتعددة مصممة تظاهرة أسئلة أكد أن الطلاب لم يكونوا على دراية المفردات المختارة.
وبالطبع كانت فترة 8 دورات ، في كل دورة ، وحوالي 8 إلى 9 كلمات جديدة كانت تدرس في كل مجموعة. ومرادفات للكلمات جديدة أعطيت لتوضيح معنى كل كلمة جديدة قبل تقديم الألغاز. في الدورة القادمة قبل تدريس كلمات جديدة لاختبار الكلمات الدورة السابقة كان يقدم لكل طالب. في المجموعة اللغز ، وأدخلت في نفس الكلمات في المقام الأول إلى الطلاب مع تعاريفها. وطلب من الطلاب لقراءتها ومحاولة لاحياء ذكرى لهم. ثم كان الطلاب في العثور على الكلمات الجديدة في الألغاز وفقا لتعريف وأدلة حول كل كلمة قدم من قبل المعلم. أول طالب الذين وجدوا في كلمة لها أثارها / يده ، وعرض موقع للكلمة إلى الطلاب الآخرين. بعد القيام اللغز ، ذهب الطلاب من خلال ممارسة المقبل الذي تدافعت الكلمات. وطالب مرة أخرى ، وفقا لتعليمات المدرس ، وجدت كلمات جديدة وإعادة ترتيبها لهم في الطريق الصحيح. في نهاية 8 دورات في posttest (نفس الاختبار الأولي) كان يقدم لكل طالب.
لقراءة النص المجموعة ، وقد صممت على الكلمات الجديدة في النصوص ، وسمح للطلاب لقراءتها وتخمين معنى الكلمات الجديدة. ثم أثار المعلم والتخمينات ، وشجعهم على إبداء آرائهم. ثم قدم معنى كل كلمة جديدة من قبل المعلم. بعض ملء التي كانت في تدريبات فارغة وأدخلت في نهاية كل دورة لتأسيس معنى الكلمات الجديدة في ذهن الطلاب. في الدورة القادمة قبل تعليم كلمات جديدة ، اختبارا لعبارة الدورة السابقة كان يقدم لكل طالب. في نهاية 8 دورات في posttest (نفس الاختبار الأولي) كان يقدم لكل طالب.
خلال الدورة الماضية ، من أجل تحقيق المتعلمين المنظور على مفردات مختلفة واستراتيجيات التعلم لمعرفة ما إذا كانوا راضين عن طرق التدريس أم لا ، فإن بعض الاستبيانات التي قدمت للطلاب. الاستبيانات التي كانت مكتوبة في الطلاب اللغة الأم. وكانت اسئلة عن مصالحها ، والطريقة التي يحب الحالة. ذكروا عن الجنس في الاستبيانات. كان كل بند من بنود ثابتة على 4 نقاط يكرت الحجم ، التي تتراوح بين 'أعارض بشدة (1) ل' أوافق بشدة '(4).
لتقييم الاختلافات بين العينة وسيلة لهاتين المجموعتين مستقلة ، اختبار (ت) ينبغي أن تحسب. لذا ينبغي أن الفرق بين وسائل لهاتين المجموعتين مختلفا بالنسبة إلى الخطأ المعياري للخلافات بين الوسائل التي يمكن تقييمها. تحليل أظهرت النتائج أن الفرق بين وسائل الاختبار الأولي وposttest من كلا الفريقين ليست كبيرة. كلا المجموعتين تعلم كلمات جديدة في نفس الطريق والتعلم من خلال مفردات النص كان فعالا مثل التعلم من خلال المفردات اللغز.
table1. نص الفريق
اختبار
ن
يعني
التنمية المستدامة
تظاهرة
12
0.5
0.975
Posttest
12
6.11
1.92
table2. لغز الفريق
اختبار
ن
يعني
التنمية المستدامة
تظاهرة
12
0.75
1.25
Posttest
12
5،643
2.17
استنتاج
تعلم كلمات جديدة كانت دائما عملية صعبة للطلاب والعديد من الاستراتيجيات وأدخلت هي الحل ، بما في ذلك تعلم المفردات من خلال النصوص والكلمات المتقاطعة. في هذه الدراسة كل من هذه الاستراتيجيات كانت تستخدم لتعليم المفردات لدراسة تأثير لهم في تعلم كلمات جديدة للمتعلمين المتقدمة. نتائج الدراسة اظهرت ان الفرق بين والاحتفاظ بهم وفهم كلمات جديدة من خلال النص والألغاز ليست كبيرة.
الصديقة المنافسة في المجموعة اللغز يعتبر عاملا هاما والطلاب مثل هذه الظروف. التعلم من خلال مفردات النص تساعد المتعلمين على أن تصبح مألوفة مع استخدام الكلمات. Danesi (1979) تشير إلى أن إدخال الألغاز ويمكن أيضا أن تكون بمثابة تغيير في وتيرة الحاجة إلى روتين يومي للتقنيات التدريس وربما يمكن أن تؤدي إلى زيادة الحافز الطالب نتيجة لذلك. من الواضح انه لالمتعلم ميزة أن تتعرض لمجموعة متنوعة من التقنيات الفصول الدراسية بحيث يتم الحفاظ على المصالح. الألغاز متقاطعة هي أفضل التمارين التي يمكن استخدامها لتأكيد معنى الكلمات في ذهن الطالب. حتى تعلم كلمات جديدة من الأفضل القيام به عن طريق إدخال كلمات جديدة من خلال النصوص ، وتأكيدا لمعنى في العقل من خلال الألغاز. باستخدام الألغاز يعتبر أداة تسمح للمدرسين للغة لإضافة اللون إلى النشاطات الصفية وخلق التمارين الذهنية ، وبالتالي توفير التحدي والتسلية في نفس الوقت.
في هذه الدراسة بعض الاستبيانات التي قدمت إلى الطلاب الذي طلب منهم الإجابة عن بعض الأسئلة في لغتهم الأم. من خلال دراسة الاستبيانات ، ووجد أن الطلاب الذكور كانوا أكثر اهتماما والرضا في تعلم المفردات من خلال اللغز. هذه النتائج قد تشير إلى أن الذكور هم الأفضل في أنشطة المنافسة (بيكون اظهر في دراسته أن الإناث أفضل في التعلم التعاوني). يمكن أن تدرس هذه المسألة في ما يتعلق استراتيجيات التعلم المختلفة والمفردات ، وركزت على إجراء مزيد من البحوث التي يمكن أن يقوم على أسباب نفسية وراء الميل للجنس واحد تجاه بعض الاستراتيجيات بالمقارنة مع غيرها من الاستراتيجيات. لأن مواضيع الدراسة لم تكن على علم بالحالة من الأبحاث ، قد يكون القلق يعتبر عاملا إعاقة في التعلم في هذه الدراسة. قد يكون إجراء مزيد من الدراسة التي أجريت في هذا الوضع القلق الحرة. In this study which was a comparison between intentional and incidental vocabulary leaning, the students encountered the target words in texts during reading activities, but the words were presented separately in the exercises to see whether students were able to understand the meaning of the new words in أحكام مختلفة أم لا (انظر التذييل). هذا النوع من التدريبات المتكاملة العرضية والمتعمدة المفردات التعلم في المجموعة النص والنتائج التي قد تضررت من جراء مثل هذا النشاط.
المراجع
لحم الخنزير المقدد ، ن خ (1992) والعلاقة بين الجنسين ، والاستيعاب ، واستراتيجيات معالجتها ، والإدراك والاستجابة العاطفية في الاستماع اللغات الاجنبية. لغة الحديث اليومية 76:160-178.
برومبرغ ، M. ، غوردون ، M. (2000). 1100 عبارة تحتاج إلى معرفته. الولايات المتحدة. بارون تربية السلسلة ، وشركة
كميل امش باء ، وفيشر بيتاجول الكلية الوطنية للتعليم. لويس وطنية جامعة. واط - Taffe S. الباحث التربوي والاستشاري. المتكاملة للتعليم المفردات : تلبية الاحتياجات المتنوعة للمتعلمين
كارتر R. (1998). المفردات : التطبيقية لغوية المنظور. لندن. روتليدج.
Danesi ، M. (1979). الألغاز في تدريس اللغات. اللجنة الكندية للغة حديثة الاستعراضي / لا ريفو canadienne ديس langues تنبض بالحياة ، 35 ، 269-277
الفرنسية ، V. A. (1983). التقنيات في تدريس المفردات. أوكسفورد : مطبعة جامعة أوكسفورد.
مقابر ، وم. ف. واتس ، taffe ، S. (2002). مكان للوعي في كلمة للبحث برنامج يستند إلى المفردات. في S.J. صامويلز & A. Farstrup ، وبحث ما قد أقول عن تعليم القراءة إد (3 الثالثة). نيوارك ، دي : الرابطة الدولية للقراءة.
هارلي H. (2007) الكلمات الإنجليزية مقدمة لغوية. دار نشر بلاكويل. C.O.S. طابعات تدريب المدرسين المحدودة
قراءة J. (2000) تقييم المفردات. كامبريدج : مطبعة جامعة كامبريدج
وقال ليو ، N. والأمة I.S.P. (1985). العوامل التي تؤثر على التخمين المفردات في سياقها الصحيح. RELC مجلة 16. 1.33-42
ماكيون ، M.G. ، بيك ، I.L. ، Omanson R.C. وبوبل ، M.T. (1985b)
ناجي ، W.E. ، هيرمان ، P.A. واندرسون ، R.C. (1985). تعلم كلمات من سياق. قراءة البحوث 20:233-253 الفصلية.
شميت ، N. ، (2002). وهو مدخل إلى علم اللغة التطبيقي. أوكسفورد : مطبعة جامعة أوكسفورد.
Watcyn جونز P. (2001) المفردات : لعبة والأنشطة. بيرسون التعليم المحدودة. البطريق الكتب المحدودة لونغمن.
رأي الشعبي | طباعة
بواسطة : A.Z
آراء المجموع : 0
كلمة حساب : 8638
التاريخ : الاثنين 24 أغسطس 2009 التوقيت : 3:15
0 تعليقات
مجردة
العديد من الدراسات التي أجريت على تطوير استراتيجيات جديدة لتعلم المفردات. الآثار المترتبة على استراتيجيات اثنين من عرض ، والتي شملت تعلم المفردات من خلال النص ، وقبل الانتهاء من الألغاز المحيرة هي مقارنة في هذه الدراسة. في هذه الدراسة 40 طالبا الايرانية الانكليزية قسمت إلى مجموعات 2. 70 الكلمات الجديدة التي تم اختيارها هي نفسها لكلا الفريقين مع أن أسلوب التدريس يجري مختلفة لكل مجموعة. دورات أجريت على أساس أسبوعي. بيانات تم جمعها على مدى فترة زمنية تقل عن 2 اشهر. تحليل النتائج تبين أن أيا من هذه المجموعات أداء أفضل بكثير من غيرها. الدرجات التي تحققت في مرحلة ما قبل الاختبارات وبعد انتهاء الاختبارات أظهرت أن تعلم المفردات ونفس القدر من الفعالية لكل من النص وأساليب اللغز.
الكلمات الرئيسية : تعليم المفردات والكلمات الجديدة ، وقراءة النص ، واللغز
مقدمة
العديد من الطلاب من مشاكل في التعلم والمفردات ، وأنه يعتبر نوعا من يطالب عملية لهم. ولكن تعلم اللغة الثانية المفردات هو ضروري لم المتعلمين ، وذلك لأن المشاكل معجمية تتداخل مع الاتصالات والطلاب على دراية بأن توقف عن الاتصال عندما تفتقر الكلمات اللازمة.
تعلم المفردات يمكن أن تتم من خلال الطرق المختلفة التي إما أن تكون عرضية أو متعمدة. العديد من الاستراتيجيات المختلفة تعتبر من تعلم الكلمات النثرية. المفردات من خلال تعلم القراءة هو نوع من التعلم العرضي في المفردات التي المتعلم يحاول تخمين معنى الكلمات الجديدة من خلال الادلة المتوفرة في النص. التعلم من خلال المفردات اللغز هو المقصود التعلم في المفردات التي انتباه المتعلم بشكل مباشر يركز على تعلم كلمات جديدة. العديد من الدراسات التي أجريت من أجل توفير بعض الاستراتيجيات الجيدة في تعلم المفردات. هذه الدراسة هو عدم إدخال استراتيجيات مختلفة للتعلم المفردات ، ولكن لدراسة تأثير طريقتين مختلفتين لتعليم المفردات على مدى التعلم. لهذا الغرض نفس الكلمات التي تم اختيارها. أنها أدخلت إلى اثنين من الطلاب من خلال استراتيجيات مختلفة تدريس المفردات. كلاهما قدم في التالية.
اثنين من الاستراتيجيات المستخدمة في هذه الدراسة :
واحدة من هذه الاستراتيجيات هو تعلم كلمات جديدة من خلال النص والتخمين معنى الكلمات الجديدة وغيرها من واحد هو كلمة اللعب ، وهذا هو ، تعلم كلمات جديدة من خلال الكلمات المتقاطعة وتدافعت الكلمات. الاستراتيجية الأولى هي أن أعرض بعض النصوص للطلاب وتشجيعهم على تخمين معنى الكلمات الجديدة من خلال قراءة النص واستخدام القرائن. عبارة جديدة غير معروفة هي المائل ، وأبرزت لزيادة الوعي.
وفقا لاتس [تف] ، والقبور ، والكلمات التي تستخدم في سياقات مختلفة. أحيانا تكون واضحة المعالم ، ومعظمهم من القرائن في النص يمكن أن تساعد المتعلمين على فهم معنى الكلمات. هذه القرائن السياق تحدث في أجزاء مختلفة من النص في أشكال مختلفة. كانت تقع قبل او بعد عبارة جديدة غير معروفة. أفضل القرائن هي تلك التي تقع في نفس الجمل ولكن في بعض الأحيان ، حلولا مفيدة هي في الجمل التالية ، أو غيرها من والفقرات. وفقا لهذه القرائن ، يمكن للطلاب تخمين معنى الكلمات الجديدة.
يميل المفردات من خلال النص هو مفيد في أن الحفظ عن ظهر قلب معنى الكلمات الجديدة على أساس القواميس لا يجعل الطلاب على دراية استخدام الكلمات في سياقات. القضية مهما لا بد أن يلاحظ في هذه الاستراتيجية هي أنه ينبغي أن يكون الطلاب قادرين على التفريق بين معنى النص كله ، وحتى هذه الاستراتيجية تستخدم في الغالب للمتعلمين المتقدمة وأولئك القادرين على فهم المعنى العام للنص من خلال معروفة الكلمات. هذه الاستراتيجية تساعد الطلاب للحصول على دراية استخدام الكلمات في سياقات مختلفة ، حتى يتمكنوا من استخدام هذه الكلمات بشكل منتظم في الكتابة والتحدث والكلمات لا تعود إلى الطلاب المفردات السلبية.
البحوث وقد أنجز الكثير للتحقيق في مدى تعلم المفردات من خلال النصوص ، وعلى أهمية استراتيجيات التخمين في قراءة النص. دراسات مثل ليو والأمة (1984) ، ناجي وآخرون (1984) وماكيون (1985) قد أظهرت أن يمكن الطلاب من تعلم كلمات جديدة عن طريق تخمين معنى الكلمات الجديدة من خلال النصوص. في دراستهم ناجي وآخرون. (1985) أظهرت أن تعلم المفردات يتأثر النص قراءة وتخمين معنى الكلمات الجديدة من خلال السياق. كما ذكر ان الطلاب الاكبر سنا يمكن أن تتعلم بشكل أفضل من خلال هذه الاستراتيجية. مكيون وآخرون (1985) ، كما في الدراسة التي أجريت في غضون اسبوعين ، وأظهرت أن التعرض للسياقات واسعة أكثر أمر مفيد للغاية ومفيدة في تعلم المفردات. كل من هذه الدراسات أظهرت أن قراءة النص والسياق تلعب دورا هاما جدا في تعلم المفردات.
الاستراتيجية الثانية هي لإدخال كلمات جديدة للطلاب من خلال الألغاز. فك رموز الكلمات المتقاطعة يتطلب الهجاء ، والذي قد يعني للطلاب والتدريب على مهارات القاموس. الطلاب يمكن توسيع نطاق هذه المفردات من خلال اللعب على الكلام. وقد أظهرت الدراسات أن تلعب كلمة يجعل الطلاب أكثر نشاطا وانهم يتمتعون التعلم. في هذه الاستراتيجية هو العقل شباكها. المتعلمين على تحسين الذاكرة ، والهجاء ، والمنطق ، والهجاء ، وكذلك زيادة مهارات حل المشاكل.
إلى أي حل الكلمات المتقاطعة ، يجب على الشخص أن يكون قادرا على تحديد وفهم المصطلحات المستخدمة. هذا غالبا ما ينطوي على اكتساب المفردات الجديدة. حل اللغز هو نوع من النموذج النشط للتعلم. الكلمات المتقاطعة لقد عانى العالم باعتبارها هواية مفضلة لأنها واسعة نداء لجميع الأعمار ، ويمكن إتمامها في غضون فترة قصيرة من الزمن ، وحلها يوفر شعورا بالإنجاز. لهذه الأسباب جميعا ، جعل الكلمات المتقاطعة أداة رائعة التعليمية ، والمعلمين سيستمر على الارجح لاستخدامها لسنوات عديدة قادمة.
في تقريره المنوي 1979 مادة حول الموضوع من خلال المفردات والألغاز ، Danesi توضح بعض الأسباب التي الألغاز ينبغي اعتبار الأنشطة التكميلية قابلة للحياة في تدريس اللغات ، ويبدو أن هذا المنطق لا يزال ينطبق اليوم. Danesi يدعي ان معظم الناس يتمتعون التحدي المتمثل في حل الألغاز التي لا الطلب حسابات متقدمة أو مهارات تقنية محددة. مع ضمان أن المتعلمين تجد الطبقة المادية قد لا تكون ممتعة ضرورة مطلقة لتقنية لتكون فعالة ، إذا كان هذا النشاط يمكن أن تكون مرحة وتعليمية في الوقت نفسه ، يبدو من المعقول الوحيد للاستفادة من هذه المجموعة نوعا فريدا من التعليم والتعلم الظروف في الفصول الدراسية.
أسئلة البحث
الأسئلة التالية البحوث تم التحقيق :
1) هل تعلم المفردات من خلال النص أكثر فعالية من التعلم من خلال المفردات لغز مساعدة في فهم معنى الكلمة؟
2) هل تعلم المفردات من خلال النص أكثر فعالية من التعلم من خلال المفردات لغز مساعدة في الإبقاء على معنى الكلمة؟
منهجية البحث
المشاركون
وكان المشاركون التغذية بالكهرباء 40 طالبا (75 ٪ إناث و 25 ٪ للذكور) في واحدة من الجامعات بايام نور من ايران. معظم الطلاب يدرسون في الفصل الثالث من دورة اللغة الانجليزية وكان قد درس اللغة الإنجليزية لمدة سنتين اعتبارا من الدورة الأكاديمية. متوسط العمر من المواضيع من العمر 20 عاما.
المواد والطرق
للتعليم للطلاب ، و 70 الكلمات مع ارتفاع مستوى صعوبة تم اختيارها. للعثور على ما إذا كان الطلاب يعرفون معنى الكلمات المختارة أو لا ، وهي تظاهرة اعطيت لهم. في تظاهرة وشملت 20 اختيارها عشوائيا الكلمات التي كانت عينة من 70 الكلمات كلها التي كان من المفترض أن تدرس من خلال البرنامج.
معظم الطلاب لم يتمكنوا من الإجابة على الأسئلة تظاهرة حتى تقديم الأوراق إلى المعلم في وقت قريب جدا دون أي إجابات على أوراق الإجابة. ليس هناك مهلة زمنية للرد على الأسئلة. اختبارات صممت بطريقة الكلمات الجديدة التي شكلت على الأسئلة. The correct answers were shown along with some simple distracting words, so that students could find the correct answers unequivocally if they were familiar with the new words presented in the questions. الطلاب كانوا على علم بأن كل إجابة خاطئة من شأنه أن يكون له تأثير سلبي على نتائجهم بسبب تصحيح لالتخمين تم القيام به.
ونتيجة لهذه الخيارات المتعددة مصممة تظاهرة أسئلة أكد أن الطلاب لم يكونوا على دراية المفردات المختارة.
وبالطبع كانت فترة 8 دورات ، في كل دورة ، وحوالي 8 إلى 9 كلمات جديدة كانت تدرس في كل مجموعة. ومرادفات للكلمات جديدة أعطيت لتوضيح معنى كل كلمة جديدة قبل تقديم الألغاز. في الدورة القادمة قبل تدريس كلمات جديدة لاختبار الكلمات الدورة السابقة كان يقدم لكل طالب. في المجموعة اللغز ، وأدخلت في نفس الكلمات في المقام الأول إلى الطلاب مع تعاريفها. وطلب من الطلاب لقراءتها ومحاولة لاحياء ذكرى لهم. ثم كان الطلاب في العثور على الكلمات الجديدة في الألغاز وفقا لتعريف وأدلة حول كل كلمة قدم من قبل المعلم. أول طالب الذين وجدوا في كلمة لها أثارها / يده ، وعرض موقع للكلمة إلى الطلاب الآخرين. بعد القيام اللغز ، ذهب الطلاب من خلال ممارسة المقبل الذي تدافعت الكلمات. وطالب مرة أخرى ، وفقا لتعليمات المدرس ، وجدت كلمات جديدة وإعادة ترتيبها لهم في الطريق الصحيح. في نهاية 8 دورات في posttest (نفس الاختبار الأولي) كان يقدم لكل طالب.
لقراءة النص المجموعة ، وقد صممت على الكلمات الجديدة في النصوص ، وسمح للطلاب لقراءتها وتخمين معنى الكلمات الجديدة. ثم أثار المعلم والتخمينات ، وشجعهم على إبداء آرائهم. ثم قدم معنى كل كلمة جديدة من قبل المعلم. بعض ملء التي كانت في تدريبات فارغة وأدخلت في نهاية كل دورة لتأسيس معنى الكلمات الجديدة في ذهن الطلاب. في الدورة القادمة قبل تعليم كلمات جديدة ، اختبارا لعبارة الدورة السابقة كان يقدم لكل طالب. في نهاية 8 دورات في posttest (نفس الاختبار الأولي) كان يقدم لكل طالب.
خلال الدورة الماضية ، من أجل تحقيق المتعلمين المنظور على مفردات مختلفة واستراتيجيات التعلم لمعرفة ما إذا كانوا راضين عن طرق التدريس أم لا ، فإن بعض الاستبيانات التي قدمت للطلاب. الاستبيانات التي كانت مكتوبة في الطلاب اللغة الأم. وكانت اسئلة عن مصالحها ، والطريقة التي يحب الحالة. ذكروا عن الجنس في الاستبيانات. كان كل بند من بنود ثابتة على 4 نقاط يكرت الحجم ، التي تتراوح بين 'أعارض بشدة (1) ل' أوافق بشدة '(4).
لتقييم الاختلافات بين العينة وسيلة لهاتين المجموعتين مستقلة ، اختبار (ت) ينبغي أن تحسب. لذا ينبغي أن الفرق بين وسائل لهاتين المجموعتين مختلفا بالنسبة إلى الخطأ المعياري للخلافات بين الوسائل التي يمكن تقييمها. تحليل أظهرت النتائج أن الفرق بين وسائل الاختبار الأولي وposttest من كلا الفريقين ليست كبيرة. كلا المجموعتين تعلم كلمات جديدة في نفس الطريق والتعلم من خلال مفردات النص كان فعالا مثل التعلم من خلال المفردات اللغز.
table1. نص الفريق
اختبار
ن
يعني
التنمية المستدامة
تظاهرة
12
0.5
0.975
Posttest
12
6.11
1.92
table2. لغز الفريق
اختبار
ن
يعني
التنمية المستدامة
تظاهرة
12
0.75
1.25
Posttest
12
5،643
2.17
استنتاج
تعلم كلمات جديدة كانت دائما عملية صعبة للطلاب والعديد من الاستراتيجيات وأدخلت هي الحل ، بما في ذلك تعلم المفردات من خلال النصوص والكلمات المتقاطعة. في هذه الدراسة كل من هذه الاستراتيجيات كانت تستخدم لتعليم المفردات لدراسة تأثير لهم في تعلم كلمات جديدة للمتعلمين المتقدمة. نتائج الدراسة اظهرت ان الفرق بين والاحتفاظ بهم وفهم كلمات جديدة من خلال النص والألغاز ليست كبيرة.
الصديقة المنافسة في المجموعة اللغز يعتبر عاملا هاما والطلاب مثل هذه الظروف. التعلم من خلال مفردات النص تساعد المتعلمين على أن تصبح مألوفة مع استخدام الكلمات. Danesi (1979) تشير إلى أن إدخال الألغاز ويمكن أيضا أن تكون بمثابة تغيير في وتيرة الحاجة إلى روتين يومي للتقنيات التدريس وربما يمكن أن تؤدي إلى زيادة الحافز الطالب نتيجة لذلك. من الواضح انه لالمتعلم ميزة أن تتعرض لمجموعة متنوعة من التقنيات الفصول الدراسية بحيث يتم الحفاظ على المصالح. الألغاز متقاطعة هي أفضل التمارين التي يمكن استخدامها لتأكيد معنى الكلمات في ذهن الطالب. حتى تعلم كلمات جديدة من الأفضل القيام به عن طريق إدخال كلمات جديدة من خلال النصوص ، وتأكيدا لمعنى في العقل من خلال الألغاز. باستخدام الألغاز يعتبر أداة تسمح للمدرسين للغة لإضافة اللون إلى النشاطات الصفية وخلق التمارين الذهنية ، وبالتالي توفير التحدي والتسلية في نفس الوقت.
في هذه الدراسة بعض الاستبيانات التي قدمت إلى الطلاب الذي طلب منهم الإجابة عن بعض الأسئلة في لغتهم الأم. من خلال دراسة الاستبيانات ، ووجد أن الطلاب الذكور كانوا أكثر اهتماما والرضا في تعلم المفردات من خلال اللغز. هذه النتائج قد تشير إلى أن الذكور هم الأفضل في أنشطة المنافسة (بيكون اظهر في دراسته أن الإناث أفضل في التعلم التعاوني). يمكن أن تدرس هذه المسألة في ما يتعلق استراتيجيات التعلم المختلفة والمفردات ، وركزت على إجراء مزيد من البحوث التي يمكن أن يقوم على أسباب نفسية وراء الميل للجنس واحد تجاه بعض الاستراتيجيات بالمقارنة مع غيرها من الاستراتيجيات. لأن مواضيع الدراسة لم تكن على علم بالحالة من الأبحاث ، قد يكون القلق يعتبر عاملا إعاقة في التعلم في هذه الدراسة. قد يكون إجراء مزيد من الدراسة التي أجريت في هذا الوضع القلق الحرة. In this study which was a comparison between intentional and incidental vocabulary leaning, the students encountered the target words in texts during reading activities, but the words were presented separately in the exercises to see whether students were able to understand the meaning of the new words in أحكام مختلفة أم لا (انظر التذييل). هذا النوع من التدريبات المتكاملة العرضية والمتعمدة المفردات التعلم في المجموعة النص والنتائج التي قد تضررت من جراء مثل هذا النشاط.
المراجع
لحم الخنزير المقدد ، ن خ (1992) والعلاقة بين الجنسين ، والاستيعاب ، واستراتيجيات معالجتها ، والإدراك والاستجابة العاطفية في الاستماع اللغات الاجنبية. لغة الحديث اليومية 76:160-178.
برومبرغ ، M. ، غوردون ، M. (2000). 1100 عبارة تحتاج إلى معرفته. الولايات المتحدة. بارون تربية السلسلة ، وشركة
كميل امش باء ، وفيشر بيتاجول الكلية الوطنية للتعليم. لويس وطنية جامعة. واط - Taffe S. الباحث التربوي والاستشاري. المتكاملة للتعليم المفردات : تلبية الاحتياجات المتنوعة للمتعلمين
كارتر R. (1998). المفردات : التطبيقية لغوية المنظور. لندن. روتليدج.
Danesi ، M. (1979). الألغاز في تدريس اللغات. اللجنة الكندية للغة حديثة الاستعراضي / لا ريفو canadienne ديس langues تنبض بالحياة ، 35 ، 269-277
الفرنسية ، V. A. (1983). التقنيات في تدريس المفردات. أوكسفورد : مطبعة جامعة أوكسفورد.
مقابر ، وم. ف. واتس ، taffe ، S. (2002). مكان للوعي في كلمة للبحث برنامج يستند إلى المفردات. في S.J. صامويلز & A. Farstrup ، وبحث ما قد أقول عن تعليم القراءة إد (3 الثالثة). نيوارك ، دي : الرابطة الدولية للقراءة.
هارلي H. (2007) الكلمات الإنجليزية مقدمة لغوية. دار نشر بلاكويل. C.O.S. طابعات تدريب المدرسين المحدودة
قراءة J. (2000) تقييم المفردات. كامبريدج : مطبعة جامعة كامبريدج
وقال ليو ، N. والأمة I.S.P. (1985). العوامل التي تؤثر على التخمين المفردات في سياقها الصحيح. RELC مجلة 16. 1.33-42
ماكيون ، M.G. ، بيك ، I.L. ، Omanson R.C. وبوبل ، M.T. (1985b)
ناجي ، W.E. ، هيرمان ، P.A. واندرسون ، R.C. (1985). تعلم كلمات من سياق. قراءة البحوث 20:233-253 الفصلية.
شميت ، N. ، (2002). وهو مدخل إلى علم اللغة التطبيقي. أوكسفورد : مطبعة جامعة أوكسفورد.
Watcyn جونز P. (2001) المفردات : لعبة والأنشطة. بيرسون التعليم المحدودة. البطريق الكتب المحدودة لونغمن.
القرن لإصلاح مناهج التعليم خلاصة مينيبو اسطة
القرن لإصلاح مناهج التعليم
خلاصة ميني
بواسطة
جيمس ل. Horend ، ماجستير ، إد - الأدميرال
© 6/5/2009
انها وصمة عار وطني! ومن جميع الأدلة انها في حالة من الفوضى وكسر خطير! استمعت قبل ذلك؟ أنا متأكد من أن لديك. جميع الذين تحليلها وتقديم تقرير عن حالة التعليم في أميركا توافق -- نظامنا هو الفشل أو ينبغي أن أقول قد فشلت. وأنها لا تزال تزداد سوءا -- إذا كان هذا ممكنا. لماذا؟ النظام بأكمله أمر عفا عليه الزمن ، الى الوراء ، التي عفا عليها الزمن وغير ذي صلة!
بعد سنوات من اللف و، إغداق الأموال على ذلك ، وتنفيذ العديد والعديد من البرامج المبتكرة على المستويات المحلية والدولة ، ناهيك عن الصعيد الوطني ، فإن أيا جعلت أكثر من عراقيل صغيرة جدا في دوامة التي لدينا حاليا من خريجي المدارس الثانوية التهديف انخفاض في كل من مادتي الرياضيات والعلوم من العديد من خريجي الجامعات في الدول الاخرى الحرة العالم. وهذا لا يغتفر وغير مقبول وغير معقول.
خططي وتوصيات لإصلاح هذا النظام بكسر ترد في شكل مكثف هنا ، وبقدر أكبر من التفاصيل في "سبل الانتصاف" *. لأنها تستند إلى حياتي البحوث الطويلة والفائدة في تحسين التعليم ، وكذا ملاحظاتي الشخصية خلال فترة عملي سبع سنوات من التدريس ، و 23 عاما ، كجهاز رئيسي.
في هذا الموجز أخاطب وتسليط الضوء على ستة سبل الانتصاف نقطة انطلاق لنموذج جديد للتعليم وأعتقد أن هناك حاجة إلى إصلاح النظام القائم. هذه العلاجات لمعالجة سنوات من الولادة والتنموية من خلال "الصف 4". إنني أعتقد اعتقادا راسخا أنه بمجرد تنفيذها ، وهذه العلاجات إحداث انقلاب في دوامة التعليمية الحالية وسوف توفر الأساس الذي يعتمد عليه لبناء الإصلاح الكلي لدينا تخبط النظام -- من الولادة وحتى ما بعد التخرج في المدارس. وهم :
1. وطنية جديدة ، ولدت قلم
2. يخصص المتعلم البرنامج
3. الوطنية المهارات الأساسية والمعرفة بنك المعلومات
4. الوقت في العمل والسنة الدراسية
5. وملاك الموظفين
6. التعويضات المهنية
وأتوقع هذه الإصلاحات وسبل الانتصاف في هذا النموذج الجديد سوف ينظر ويحكم بها على النحو المعتاد المتشككين اي شيء اقل من راديكالية جدا ومستحيلة تماما ، من قبل خبراء وربما من المستحيل ولكن مثيرة للاهتمام ، أو على النحو الذي طال انتظاره الرد من جانب أولئك الذين يفهمون حقا عملية التعلم ، وتفرد كل طفل وطبيعة المناهج البالية.
لتبدأ مع إنني أقترح إنشاء فورية وطنية جديدة ، ولدت قلم كل طفل يولد في هذا البلد! (تذكر قلت لي الانتصاف من شأنه أن ينظر ويحكم ومتطرفة للغاية أو مستحيلة.)
أهداف هذا البرنامج هي التسجيل الأولى بها أن تكون بمثابة مرحلة ما قبل المدرسة في المدارس التي تتبع نظام ترصد وثائق التقدم لجميع الأطفال أثناء إعدادها للدخول في النظام المدرسي الرسمي. يصبح كل طفل دائم البيانات المصرفية.
الهدف الثاني هو أن يكون الفرد في السجل التراكمي الاستمرار في متابعة الطفل طوال حياته المهنية كلها في المدارس ويكون بمثابة أساس لجميع المقررات التعليمية التي تلت ذلك. التكنولوجيا اللازمة لجعل هذا يحدث بالفعل.
المقبل ، على أن مفهوم البرنامج الفردي المتعلم ، وآخر من الحيوية وعلاج تأخر طويلا. تجديد واستبدال كامل قبل الروضة 4 المناهج الدراسية مع النموذج الجديد سيخلق واحدة مخصصة لدعم احتياجات التعلم لكل فرد ويتم بإيجاز هنا.
كيف يؤثر هذا على المستوى الفردي المتعلم البرنامج تلبية حاجة كل طفل على المواد المناسبة للمتعلم والدارس وبيئة العمل المناسبة؟ في نموذج جديد عندما يكون الطفل يدخل إلزاميا قبل ك البرنامج أو وافقت ، العمر البرنامج المناسب في أي مكان ، والأطفال مع وصول وطنية جديدة ، ولدت قلم التوثيق ؛ فريق تلقي تعليم الطفل على الفور عمليات نقل البيانات إلى المدرسة وبناء الكمبيوتر الرئيسي ، ثم العاملين وأماكن للطفل. انها عملية مشابهة لبدء التخطيط لها تاريخ طبي مفصل.
البيانات ستتألف من جميع اكتساب المعرفة والمهارات الأساسية استعداد -- أو القصور -- وسوف تشمل الاجتماعية ، فضلا عن المعلومات الأكاديمية. والإشراف على الماجستير وفريق المعلمين سوف نعرف بالضبط من أين نبدأ من أجل وضع خطة تعليمية فردية للمتعلم جديد. الإدخالات الخطة -- استقاها من البرامج المعتمدة من المهارات الفردية والمضمون الوارد في المهارات الأساسية والمعارف الوطنية بنك معلومات -- ثم يتم تعديل أو إضافة إلى جميع أنحاء كل يوم كما تقدم للطفل. فإنه سيكون بمثابة التبليغ والمحاسبة أداة للوصول إلى والدي الطفل وجميع العاملين في وكالات أخرى ، أو يعمل لحساب أو مع الأطفال. وسوف يكون صارما الحفاظ على السرية وفقا للقوانين والسياسات المناسبة.
ومن المكونات الرئيسية لهذا البرنامج الفردي المتعلم هو أن البيانات التي سوف تتبع الطفل -- المتعلم -- طوال السنوات التي قضاها في المدارس بغض النظر عما يدخل المدرسة للطفل أو لنقل -- في أي وقت من السنة وأي مكان في البلاد.
والمهارات الوطنية والمعارف الأساسية بيانات البنك ، وهو عنصر حيوي وداعمة ومتكاملة من الطراز الجديد هو تعامل بقدر أكبر من التفاصيل في "التعويضات" لكنه طويل جدا ومفصلة لهذه نبذة مصغرة. الوظيفة الأساسية للبنك للبيانات هو بمثابة مستودع في متناول الجميع لمجموعة أساسية شاملة للمحتوى والمهارات ذات الصلة -- منهج دراسي وطني لجميع مرحلة ما قبل المدرسة من خلال 4 أطفال.
لتحقيق الأهداف وضمان نجاح هذا النموذج الجديد نظام التعليم يتطلب توفير سبل الانتصاف لاثنين من نقاط الضعف المترابطة إضافية في النظام القائم : مرة على العمل والسنة الدراسية. لا يكفي أن يكون لها برنامج كبير وبعد ذلك لأنها قد تفشل بسبب عدم كفاية الوقت كان مكرسا لتنفيذها والاستفادة من ذلك.
الإنتاجية في مجتمعنا يقوم على مزيج من عوامل كثيرة ، لكن من بين الاجراءات المتصلة بالإنتاج وسهلة لقياس الوقت على اساس المهمة. عندما ننظر في النموذج الحالي التعليم فمن السهل أن نرى أن مدارسنا لم يتم انفاق ما يكفي من الوقت على اساس المهمة. نحن بعيدون تماما عن العالم الحقيقي ، والحاجة إلى مواكبة زيادة انفجار المعرفة يشكل تحديا لنا جميعا كل يوم.
اذا كنت تطلب من المدارس لتعليم الطالب -- أي الطالب -- ونفعل ذلك منذ 13 عاما ، وكنت اعتقد انه سيكون وقتا كافيا للتوصل إلى المنتج النهائي ممتازة ، ولكن من الواضح أنها تستند إلى نموذج الخاطئة التي لا توجد الآن ' العمل ر. في نموذج جديد للتعليم في الوقت على اساس مهمة للدارسين والموظفين ، والتعديلات المقترحة من السنة الدراسية تختلف اختلافا جذريا عن المعايير المقبولة حاليا. في النموذج الجديد لمدة 180 يوم في العام الدراسي هو توسيع نطاقه ليشمل 225 يوما بالنسبة للطلاب ، ويعد أكثر بالنسبة للموظفين. الطلاب سيحصلون على ما بين 1،800 و 2،025 ساعات أكثر من مرة على اساس المهمة في السنة أو ل(+/-)زيادة 85 ٪ لكل طالب في السنة! انتشار هذه الزيادة أكثر من 13 عاما ، والجمع بين ذلك مع أرفع فرق التدريس ، وهو متعلم البرنامج الفردي القائم على المهارات ذات الصلة والمحتوى المحدد من المهارات الأساسية الوطنية وبنك معلومات ومعارف ومنتج ممتاز الانتهاء يصبح حقيقة واقعة!
تعويضات الموظفين وهما أكثر المكونات الرئيسية للنموذج الجديد تتطلب مقدمة موجزة هنا. من أجل بلوغ الهدف المتمثل في توفير كل طفل مع أفضل تعليم ممكن ، يجب أن نبدأ بشكل جذري عن طريق تغيير أنماط التوظيف الحالية.
الهدف من الموظفين لهذا الطراز الجديد لتوفير الإشراف على المعلمين الرئيسي في كل الفصول الدراسية معتمدة من قبل فريق من اثنين من المدرسين المهنيين المساعدين ومساعدي مدرسين والطلاب المتدربين ، والآباء وغيرهم من المتطوعين. لم يعد لها ومدرس واحد ، ويقف امام من 25 إلى 35 ، والجلوس على مقاعد الطلاب ، أن يكون المعيار المقبول. انها ليست الطريقة للمعلمين أفضل تعليم. وحتى أفضل المعلمين الذين قيدت أيديهم الكثير الكثير من الوقت قبل that's ، فإن الطريق قد بين لنا ، افعل ذلك أنماط التوظيف ، ومتطلبات المناهج الدراسية ، واختبار المطالب والقيود الزمنية السائدة حاليا في مدارسنا اليوم.
الآثار المترتبة على رواتب المعلمين -- التعويضات المهنية -- واضحة. بلدي اقترح المبادئ التوجيهية التي تشرف المعلمين رئيسية ينبغي أن يتلقوا تعويضات تتراوح بين حد أدنى من 200،000 دولار الى 250،000 دولار وتصل. المعاون المعلمين وينبغي أن تبدأ من حد أدنى من 150،000 دولار وأعلى من مكان ما حول 200،000 دولار. هذه الرواتب تعكس مستوى عاليا من الأداء والمساءلة ، والوقت اللازم في تدريس جديدة نموذج المهنة. كذلك ، فإنها تجعل التدريس جذابا بالنسبة لهؤلاء الخريجين عالية الجودة دخول قوة العمل الذي كثيرا ما يغض الطرف عن التدريس بسبب المزيد من الفرص المربحة في أي مكان آخر. رواتب أعلى وسوف يساعد أيضا على كبح ارتفاع معدلات الاستنزاف التي تكلف دافعي الضرائب الملايين والملايين سنويا.
فصول وموضوعات حول خلق فرص العمل والتوظيف ، وحيازة ، وبرامج التلمذة الصناعية ، وإشراك الوالدين والمجتمع ، واختبار البرامج ، والآثار على ثقة الطالب واحترام الذات ، والرسوب ، وأرقام التسرب ، والبلطجة السلوكيات ، ومستويات السمنة في مرحلة الطفولة والتغيب عن المدرسة ، وتعاطي المخدرات والاعتداء على الأطفال والسلوك الإجرامي ، -- والقائمة تطول وعلى -- وسوف تكون جميع وجدت في "علاج" فور نشره. وإذا كنت ترغب في نسخة موسعة من هذا بكثير خلاصة ميني ، انقر على التربية والتعليم "التعويضات" وصلة على بلدي تدريب الحياة على الإنترنت : http:/wwwlifecoachingservice.net (قد تحتاج إلى فوق الحق وانقر على "ارتباط فتح". )
خلاصة ميني
بواسطة
جيمس ل. Horend ، ماجستير ، إد - الأدميرال
© 6/5/2009
انها وصمة عار وطني! ومن جميع الأدلة انها في حالة من الفوضى وكسر خطير! استمعت قبل ذلك؟ أنا متأكد من أن لديك. جميع الذين تحليلها وتقديم تقرير عن حالة التعليم في أميركا توافق -- نظامنا هو الفشل أو ينبغي أن أقول قد فشلت. وأنها لا تزال تزداد سوءا -- إذا كان هذا ممكنا. لماذا؟ النظام بأكمله أمر عفا عليه الزمن ، الى الوراء ، التي عفا عليها الزمن وغير ذي صلة!
بعد سنوات من اللف و، إغداق الأموال على ذلك ، وتنفيذ العديد والعديد من البرامج المبتكرة على المستويات المحلية والدولة ، ناهيك عن الصعيد الوطني ، فإن أيا جعلت أكثر من عراقيل صغيرة جدا في دوامة التي لدينا حاليا من خريجي المدارس الثانوية التهديف انخفاض في كل من مادتي الرياضيات والعلوم من العديد من خريجي الجامعات في الدول الاخرى الحرة العالم. وهذا لا يغتفر وغير مقبول وغير معقول.
خططي وتوصيات لإصلاح هذا النظام بكسر ترد في شكل مكثف هنا ، وبقدر أكبر من التفاصيل في "سبل الانتصاف" *. لأنها تستند إلى حياتي البحوث الطويلة والفائدة في تحسين التعليم ، وكذا ملاحظاتي الشخصية خلال فترة عملي سبع سنوات من التدريس ، و 23 عاما ، كجهاز رئيسي.
في هذا الموجز أخاطب وتسليط الضوء على ستة سبل الانتصاف نقطة انطلاق لنموذج جديد للتعليم وأعتقد أن هناك حاجة إلى إصلاح النظام القائم. هذه العلاجات لمعالجة سنوات من الولادة والتنموية من خلال "الصف 4". إنني أعتقد اعتقادا راسخا أنه بمجرد تنفيذها ، وهذه العلاجات إحداث انقلاب في دوامة التعليمية الحالية وسوف توفر الأساس الذي يعتمد عليه لبناء الإصلاح الكلي لدينا تخبط النظام -- من الولادة وحتى ما بعد التخرج في المدارس. وهم :
1. وطنية جديدة ، ولدت قلم
2. يخصص المتعلم البرنامج
3. الوطنية المهارات الأساسية والمعرفة بنك المعلومات
4. الوقت في العمل والسنة الدراسية
5. وملاك الموظفين
6. التعويضات المهنية
وأتوقع هذه الإصلاحات وسبل الانتصاف في هذا النموذج الجديد سوف ينظر ويحكم بها على النحو المعتاد المتشككين اي شيء اقل من راديكالية جدا ومستحيلة تماما ، من قبل خبراء وربما من المستحيل ولكن مثيرة للاهتمام ، أو على النحو الذي طال انتظاره الرد من جانب أولئك الذين يفهمون حقا عملية التعلم ، وتفرد كل طفل وطبيعة المناهج البالية.
لتبدأ مع إنني أقترح إنشاء فورية وطنية جديدة ، ولدت قلم كل طفل يولد في هذا البلد! (تذكر قلت لي الانتصاف من شأنه أن ينظر ويحكم ومتطرفة للغاية أو مستحيلة.)
أهداف هذا البرنامج هي التسجيل الأولى بها أن تكون بمثابة مرحلة ما قبل المدرسة في المدارس التي تتبع نظام ترصد وثائق التقدم لجميع الأطفال أثناء إعدادها للدخول في النظام المدرسي الرسمي. يصبح كل طفل دائم البيانات المصرفية.
الهدف الثاني هو أن يكون الفرد في السجل التراكمي الاستمرار في متابعة الطفل طوال حياته المهنية كلها في المدارس ويكون بمثابة أساس لجميع المقررات التعليمية التي تلت ذلك. التكنولوجيا اللازمة لجعل هذا يحدث بالفعل.
المقبل ، على أن مفهوم البرنامج الفردي المتعلم ، وآخر من الحيوية وعلاج تأخر طويلا. تجديد واستبدال كامل قبل الروضة 4 المناهج الدراسية مع النموذج الجديد سيخلق واحدة مخصصة لدعم احتياجات التعلم لكل فرد ويتم بإيجاز هنا.
كيف يؤثر هذا على المستوى الفردي المتعلم البرنامج تلبية حاجة كل طفل على المواد المناسبة للمتعلم والدارس وبيئة العمل المناسبة؟ في نموذج جديد عندما يكون الطفل يدخل إلزاميا قبل ك البرنامج أو وافقت ، العمر البرنامج المناسب في أي مكان ، والأطفال مع وصول وطنية جديدة ، ولدت قلم التوثيق ؛ فريق تلقي تعليم الطفل على الفور عمليات نقل البيانات إلى المدرسة وبناء الكمبيوتر الرئيسي ، ثم العاملين وأماكن للطفل. انها عملية مشابهة لبدء التخطيط لها تاريخ طبي مفصل.
البيانات ستتألف من جميع اكتساب المعرفة والمهارات الأساسية استعداد -- أو القصور -- وسوف تشمل الاجتماعية ، فضلا عن المعلومات الأكاديمية. والإشراف على الماجستير وفريق المعلمين سوف نعرف بالضبط من أين نبدأ من أجل وضع خطة تعليمية فردية للمتعلم جديد. الإدخالات الخطة -- استقاها من البرامج المعتمدة من المهارات الفردية والمضمون الوارد في المهارات الأساسية والمعارف الوطنية بنك معلومات -- ثم يتم تعديل أو إضافة إلى جميع أنحاء كل يوم كما تقدم للطفل. فإنه سيكون بمثابة التبليغ والمحاسبة أداة للوصول إلى والدي الطفل وجميع العاملين في وكالات أخرى ، أو يعمل لحساب أو مع الأطفال. وسوف يكون صارما الحفاظ على السرية وفقا للقوانين والسياسات المناسبة.
ومن المكونات الرئيسية لهذا البرنامج الفردي المتعلم هو أن البيانات التي سوف تتبع الطفل -- المتعلم -- طوال السنوات التي قضاها في المدارس بغض النظر عما يدخل المدرسة للطفل أو لنقل -- في أي وقت من السنة وأي مكان في البلاد.
والمهارات الوطنية والمعارف الأساسية بيانات البنك ، وهو عنصر حيوي وداعمة ومتكاملة من الطراز الجديد هو تعامل بقدر أكبر من التفاصيل في "التعويضات" لكنه طويل جدا ومفصلة لهذه نبذة مصغرة. الوظيفة الأساسية للبنك للبيانات هو بمثابة مستودع في متناول الجميع لمجموعة أساسية شاملة للمحتوى والمهارات ذات الصلة -- منهج دراسي وطني لجميع مرحلة ما قبل المدرسة من خلال 4 أطفال.
لتحقيق الأهداف وضمان نجاح هذا النموذج الجديد نظام التعليم يتطلب توفير سبل الانتصاف لاثنين من نقاط الضعف المترابطة إضافية في النظام القائم : مرة على العمل والسنة الدراسية. لا يكفي أن يكون لها برنامج كبير وبعد ذلك لأنها قد تفشل بسبب عدم كفاية الوقت كان مكرسا لتنفيذها والاستفادة من ذلك.
الإنتاجية في مجتمعنا يقوم على مزيج من عوامل كثيرة ، لكن من بين الاجراءات المتصلة بالإنتاج وسهلة لقياس الوقت على اساس المهمة. عندما ننظر في النموذج الحالي التعليم فمن السهل أن نرى أن مدارسنا لم يتم انفاق ما يكفي من الوقت على اساس المهمة. نحن بعيدون تماما عن العالم الحقيقي ، والحاجة إلى مواكبة زيادة انفجار المعرفة يشكل تحديا لنا جميعا كل يوم.
اذا كنت تطلب من المدارس لتعليم الطالب -- أي الطالب -- ونفعل ذلك منذ 13 عاما ، وكنت اعتقد انه سيكون وقتا كافيا للتوصل إلى المنتج النهائي ممتازة ، ولكن من الواضح أنها تستند إلى نموذج الخاطئة التي لا توجد الآن ' العمل ر. في نموذج جديد للتعليم في الوقت على اساس مهمة للدارسين والموظفين ، والتعديلات المقترحة من السنة الدراسية تختلف اختلافا جذريا عن المعايير المقبولة حاليا. في النموذج الجديد لمدة 180 يوم في العام الدراسي هو توسيع نطاقه ليشمل 225 يوما بالنسبة للطلاب ، ويعد أكثر بالنسبة للموظفين. الطلاب سيحصلون على ما بين 1،800 و 2،025 ساعات أكثر من مرة على اساس المهمة في السنة أو ل(+/-)زيادة 85 ٪ لكل طالب في السنة! انتشار هذه الزيادة أكثر من 13 عاما ، والجمع بين ذلك مع أرفع فرق التدريس ، وهو متعلم البرنامج الفردي القائم على المهارات ذات الصلة والمحتوى المحدد من المهارات الأساسية الوطنية وبنك معلومات ومعارف ومنتج ممتاز الانتهاء يصبح حقيقة واقعة!
تعويضات الموظفين وهما أكثر المكونات الرئيسية للنموذج الجديد تتطلب مقدمة موجزة هنا. من أجل بلوغ الهدف المتمثل في توفير كل طفل مع أفضل تعليم ممكن ، يجب أن نبدأ بشكل جذري عن طريق تغيير أنماط التوظيف الحالية.
الهدف من الموظفين لهذا الطراز الجديد لتوفير الإشراف على المعلمين الرئيسي في كل الفصول الدراسية معتمدة من قبل فريق من اثنين من المدرسين المهنيين المساعدين ومساعدي مدرسين والطلاب المتدربين ، والآباء وغيرهم من المتطوعين. لم يعد لها ومدرس واحد ، ويقف امام من 25 إلى 35 ، والجلوس على مقاعد الطلاب ، أن يكون المعيار المقبول. انها ليست الطريقة للمعلمين أفضل تعليم. وحتى أفضل المعلمين الذين قيدت أيديهم الكثير الكثير من الوقت قبل that's ، فإن الطريق قد بين لنا ، افعل ذلك أنماط التوظيف ، ومتطلبات المناهج الدراسية ، واختبار المطالب والقيود الزمنية السائدة حاليا في مدارسنا اليوم.
الآثار المترتبة على رواتب المعلمين -- التعويضات المهنية -- واضحة. بلدي اقترح المبادئ التوجيهية التي تشرف المعلمين رئيسية ينبغي أن يتلقوا تعويضات تتراوح بين حد أدنى من 200،000 دولار الى 250،000 دولار وتصل. المعاون المعلمين وينبغي أن تبدأ من حد أدنى من 150،000 دولار وأعلى من مكان ما حول 200،000 دولار. هذه الرواتب تعكس مستوى عاليا من الأداء والمساءلة ، والوقت اللازم في تدريس جديدة نموذج المهنة. كذلك ، فإنها تجعل التدريس جذابا بالنسبة لهؤلاء الخريجين عالية الجودة دخول قوة العمل الذي كثيرا ما يغض الطرف عن التدريس بسبب المزيد من الفرص المربحة في أي مكان آخر. رواتب أعلى وسوف يساعد أيضا على كبح ارتفاع معدلات الاستنزاف التي تكلف دافعي الضرائب الملايين والملايين سنويا.
فصول وموضوعات حول خلق فرص العمل والتوظيف ، وحيازة ، وبرامج التلمذة الصناعية ، وإشراك الوالدين والمجتمع ، واختبار البرامج ، والآثار على ثقة الطالب واحترام الذات ، والرسوب ، وأرقام التسرب ، والبلطجة السلوكيات ، ومستويات السمنة في مرحلة الطفولة والتغيب عن المدرسة ، وتعاطي المخدرات والاعتداء على الأطفال والسلوك الإجرامي ، -- والقائمة تطول وعلى -- وسوف تكون جميع وجدت في "علاج" فور نشره. وإذا كنت ترغب في نسخة موسعة من هذا بكثير خلاصة ميني ، انقر على التربية والتعليم "التعويضات" وصلة على بلدي تدريب الحياة على الإنترنت : http:/wwwlifecoachingservice.net (قد تحتاج إلى فوق الحق وانقر على "ارتباط فتح". )
كشف الأدنى التكرارات لويب الزحف
كشف الأدنى التكرارات
لويب الزحف
الملخص
بالقرب من وثائق على شبكة الإنترنت مكررة وفيرة. اثنين من هذه الوثائق تختلف عن بعضها البعض في جزء صغير جدا التي تعرض الإعلانات ، وعلى سبيل المثال. وهذه الاختلافات لا تمت بصلة للبحث على شبكة الإنترنت. وحتى نوعية الزيادات زاحف الويب إذا كان يمكن تقييم ما إذا كان حديثا زحف صفحة الويب هي شبه مكررة من قبل زحف صفحة الويب أم لا. في سياق وضع بالقرب من نظام الكشف عن التكرار لعدة مليارات صفحة مستودع ، ونحن جعل اثنين من المساهمات البحثية. أولا ، علينا أن نبرهن على شاريكار وتقنية البصمات هي المناسبة لتحقيق هذا الهدف. ثانيا ، نحن في عرض تقنية حاسوبية لتحديد البصمات الموجودة ، و التي تختلف قليلا من البصمات في المقدمة في معظم ك بت المواقف ، لk. الصغيرة لدينا التقنية مفيدة لكلا الاستعلامات على شبكة الإنترنت (بصمات الأصابع واحد) والاستفسارات الدفعي (بصمات متعددة). التقييم التجريبي على بيانات حقيقية ويؤكد التطبيق العملي لدينا تصميم.
1. مقدمة
الزحف على شبكة الإنترنت هو جزء لا يتجزأ من البنية التحتية لمحركات البحث. الزواحف عام الزحف وثائق وصلات ينتمون إلى مجموعة متنوعة من المواضيع ، في حين ركزت بعض الزواحف استخدام المعرفة المتخصصة للحد من الزحف إلى صفحات تتعلق بمواضيع محددة. من أجل الزحف على شبكة الإنترنت ، مثل قضايا نضارة وكفاءة استخدام الموارد قد سبق تناولها. ومع ذلك ، فإن مشكلة القضاء على بالقرب من وثائق على شبكة الإنترنت مكررة في الزحف عامة لم تحظ بالاهتمام.
المستندات التي يتم نسخ طبق الأصل من بعضها البعض (بسبب المتطابق والانتحال) من السهل تحديد معيار الاختيار من تقنيات التلخيص. والمشكلة الأصعب هي تحديد لمستندات - مكررة القريب. اثنين من هذه الوثائق متطابقة من حيث المحتوى ولكنها تختلف في جزء صغير من هذه الوثيقة ، مثل الإعلانات ، والعدادات والطوابع الزمنية. هذه الاختلافات لا تمت بصلة للبحث على شبكة الإنترنت. حتى إذا كان حديثا زحف Pduplicate الصفحة يعتبر شبه مكررة من بالفعل الزحف الصفحة ف ، المحرك الزحف ينبغي تجاهل Pduplicate وصلاتها خارج يذهب بأكمله (الحدس يوحي بأن هذه ربما تكون شبه مكررة من الصفحات للوصول من ف ). القضاء على شبه مكررة يحفظ النطاق الترددي للشبكة ، ويقلل من تكاليف التخزين ، وتحسن من نوعية فهارس البحث. كما أنه يقلل العبء الملقى على عاتق المضيف البعيد هي التي تخدم صفحات الويب من هذا القبيل. وهناك نظام للكشف عن صفحات مكررة - بالقرب يواجه عددا من التحديات. أولا وقبل كل شيء هو مسألة الحجم : محركات البحث مؤشر المليارات من صفحات الويب ، وهذا يرقى الى قاعدة بيانات متعددة تيرابايت. ثانيا ، ينبغي أن محرك الزحف تكون قادرة على الزحف المليارات من صفحات الويب في اليوم الواحد. لذلك كان القرار لإحياء حديثا زحف الصفحة كما شبه مكررة من صفحة موجودة ينبغي أن يكون سريعا. وأخيرا ، ينبغي للنظام واستخدام آلات قليلة قدر الإمكان. هنا نحن نعتبر ما يلي :
A. نحن يبين أن شاريكار في simhash عمليا مفيدا لتحديد شبه مكررة في وثائق الشبكة تنتمي إلى عدة مليارات صفحة مستودع. simhash هو تقنية البصمات التي تتمتع الممتلكات التي بصمات شبه مكررة تختلف في عدد صغير من مواقف بعض الشيء. علينا التحقق من أن تجريبيا لمستودع لل8B صفحة الويب ، 64 بت وبصمات simhash ك = 3 معقولة (القسم 2).
B. وتطوير تقنية من أجل حل مشكلة المبالغة المسافة : في جمع بصمات الأصابع ، و بت وسرعة وجميع البصمات التي تختلف عن بصمة الاصبع على مواقع معينة في معظم ك بت ، حيث ك عدد صحيح الصغيرة. لدينا التقنية مفيدة لكلا الاستعلامات على شبكة الإنترنت (بصمات الأصابع واحد) والاستفسارات الدفعي (بصمات متعددة).
C. ونحن حاليا مسحا للخوارزميات وتقنيات الكشف عن التكرار (القسم 5).
2. أخذ البصمات مع SIMHASH
شاريكار في simhash هو الحد من أبعاد تقنية. وخرائط ثلاثية الأبعاد عالية ناقلات صغيرة الحجم لبصمات الأصابع. يتم تطبيقه على صفحات الشبكة العالمية على النحو التالي : نحن أول من تحويل صفحات الانترنت إلى مجموعة من الميزات ، كل ميزة الموسومة
بكل ثقلها. ميزات يتم حسابها باستخدام تقنيات الأشعة تحت الحمراء قياسية مثل tokenization لطي القضية ، ووقف إزالة كلمة ، ووقف وكشف جملة. مجموعة من الميزات مرجح يشكل رفيع متجه الابعاد ، مع البعد واحد لكل ميزة فريدة من نوعها في جميع الوثائق مجتمعة. مع simhash ، يمكننا أن نحول هذه رفيع متجه الى الابعاد و - البصمات حيث بت و هو صغير ، ويقول 64.
الحساب : وبالنظر الى مجموعة من السمات المستخرجة من وثيقة وأوزانها المقابلة ، ونحن نستخدم simhash لإنشاء و بت البصمات على النحو التالي. ونحافظ على الأبعاد و ناقلات الخامس ، كل واحد من أبعادها هو تهيئة إلى صفر. والميزة هي تجزئته الى طائرة من طراز اف بت قيمة البعثرة. هذه البتات و (ميزة فريدة من نوعها ل) الزيادة / إنقاص مكونات و للناقلات من وطأة هذه الميزة على النحو التالي : إذا كنت بت عشرة للتجزئة القيمة هي 1 ، ط العنصر الخامس عشر للبمقدار وزن تلك الميزة ، وإذا كان لي بت والعشرين للتجزئة القيمة هي 0 ، ط العنصر الخامس عشر من هو decremented من الوزن من تلك الميزة. عندما تكون جميع الميزات تم تجهيزها ، وبعض مكونات هي الخامس
إيجابية والبعض الآخر سلبي. علامات تحديد مكونات البتات المناظرة من البصمات النهائية.
النتائج التجريبية : بالنسبة لنظامنا ، استخدمنا جيم الأصلي + + تنفيذ simhash ، الذي قام به موسى شاريكار نفسه. بالتزامن مع تطوير نظامنا في عام 2004 | 2005 ، أجرى مونيكا Henzinger دراسة مقارنة أن
simhash مع برودر لوحة خشبية القائم على بصمات الأصابع. مقارنة ممتازة بين هذين النهجين يظهر في Henzinger.A ميزة كبيرة من خلال استخدام simhash القوباء المنطقية هو أنه يتطلب صغيرة الحجم نسبيا بصمات الأصابع. على سبيل المثال ، لوحة خشبية برودور مقرها بصمات تتطلب 24 بايت لكل البصمات (انها تتلخص في التحقق مما إذا كان اثنين أو أكثر من رابين بصمات من أصل ستة متطابقة). مع simhash ، 8B لصفحات الويب ، 64 - بصمات بت تكفي ، ونحن تجريبها عمليا في هذا x4.
خصائص simhash : لاحظ أن simhash يمتلك خاصيتين متضاربة : (أ) والبصمات وثيقة هو 'البعثرة" من معالمه ، و (ب) وثائق مماثلة قيم التجزئة مماثلة. الخاصية الأخيرة هي شاذة قد hfunctions. للحصول على التوضيح ، والنظر في وثيقتين التي تختلف في بايت واحد. ظائف ثم تجزئة التشفير مثل شا - 1 أو MD5 سوف بعثرة هاتين الوثيقتين (يعامل الجمل) إلى قسمين بعثرة مختلفة تماما القيم (المبالغة في المسافة بين قيم التجزئة ستكون كبيرة ). ومع ذلك ، لن simhash البعثرة لهم في بعثرة مماثلة القيم (المسافة المبالغة ستكون صغيرة).
في تصميم بالقرب من نظام الكشف عن التكرار على أساس simhash ، وقد واحد للتعامل مع غرابة من simhash الموصوفة أعلاه. استراتيجية استخدمناها هي على النحو التالي : نحن لدينا تصميم الخوارزميات افتراض أن ملكية ويحمل ، أي بصمات وتوزع بانتظام على نحو عشوائي ، ونحن تجريبيا قياس تأثير عدم التجانس الذي عرضته الملكية باء على قواعد البيانات الحقيقية. بعد تحويل الوثائق إلى بصمات simhash ، نحن نواجه مشكلة التصميم التالي : نظرا إلى 64 بت البصمات من الزحف مؤخرا صفحة على شبكة الإنترنت ، كيف يمكن لنا أن نكتشف بسرعة البصمات الأخرى التي تختلف في معظم 3 بت المواقف؟ علينا معالجة هذه المشكلة في القسم التالي.
3. المبالغة المسافة للمشكلة
التعريف : ونظرا لجمع بصمات الأصابع ، و بت واستعلام البصمات واو ، وتحديد ما إذا كان البصمات الموجودة يختلف عن واو في بت في معظم ك. (وفي الدفعة وضع صيغة للمشكلة المذكورة أعلاه ، لدينا مجموعة من البصمات الاستعلام
بدلا من واحد البصمات الاستعلام). كما مثيل ملموسة للproblem2 أعلاه ، والنظر في مجموعة من البصمات 8B 64 بت ، واحتلال 64GB. في
النسخة الإلكترونية من المشكلة ، لواو الاستعلام بصمات الأصابع ، لدينا للتأكد من ضمن عدد قليل من الالف ما إذا كان أي من القائمة 8B 64 - بصمات يختلف قليلا في واو في معظم ك = 3 بت المواقف. في إصدار دفعة من هذه المشكلة ، ونحن
لديهم مجموعة ، ويقول ، 1M بصمات الاستعلام (بدلا من الاستعلام الانفرادي البصمات واو) ويتعين علينا أن نحل المشكلة نفسها بالنسبة لجميع بصمات 1M الاستعلام في ما يقرب من 100 ثانية. هذا سيكون بمثابة مرت من 1B الاستعلامات في اليوم الواحد. دعونا استكشاف الفضاء من خلال النظر في تصميم اثنين simpleminded لكن النهج غير عملي. نهج واحد هو بناء الجدول فرز جميع البصمات الموجودة. نظرا واو ، علينا تحقيق مثل هذا الجدول مع كل الذين F0 المبالغة المسافة من واو هو في معظم k. العدد الإجمالي للتحقيقات باهظة كبير : ل64 بت وبصمات ك = 3 ، نحن بحاجة 64 3 فاي = 41664 المجسات. وبديل ذلك هو ما قبل احتساب جميع F0 أن بعض هذه البصمات الموجودة في معظم المبالغة المسافة ك بعيدا عن F0. في هذا النهج ، فإن العدد الإجمالي من قبل بصمات المحسوبة هي باهظة كبيرة : يمكن أن يكون ما يصل الى 41664 عدد مرات بصمات الأصابع. لدينا الآن وضع خوارزمية العملية التي تكمن في ما بين النهجين المبينة أعلاه : من الممكن حل المشكلة مع عدد صغير من المجسات وازدواجية في الجدول من بصمات بمعامل صغيرة.
الحدس : النظر في جدول فرزها من 2d بصمات الاصابع و بت حقا عشوائي. التركيز فقط على أهم بت د في الجدول. وهناك قائمة من د بت هذه الأرقام مبالغ ل\ تقريبا لمكافحة "بمعنى أن (أ) عدد غير قليل من 2d تركيبات بت الوجود ، و (ب) عدد قليل جدا من د تركيبات بت يتم تكرار. ومن ناحية أخرى ، على الأقل significant f d bits are \almost random". الآن اختيار d0 ان هذه jd0 دي جي عددا صحيحا الصغيرة. منذ الجدول يتم فرز وفحص واحد يكفي لتحديد جميع تطابق البصمات التي واو في d0 أهم بت المواقف. منذ jd0 دي جي صغير ، وعدد المباريات التي خاضها هذا ومن المتوقع أيضا أن تكون صغيرة. لكل مطابقة البصمات ، يمكننا بسهولة معرفة ما اذا كان ذلك يختلف في واو في معظم ك بت المواقف أم لا (هذه الخلافات ومن الطبيعي أن يكون مقصورا على الأقل و d0 بت كبيرة من المناصب). الإجراء الموصوف أعلاه يساعدنا على تحديد مكان وجود البصمات الموجودة التي تختلف عن واو ك بت في المناصب ، وكلها مقيدة ليكون من بين الأقل أهمية و d0 البتات F. هذا يهتم عدد لا بأس به من الحالات. لتغطية جميع الحالات ، يكفي لبناء عدد قليل من جداول فرز إضافية ، رسميا على النحو المبين في المقطع التالي.
3.1 خوارزمية للاستعلامات على الانترنت
علينا أن نبني الجداول ر : T1 ؛ T2 ؛ : : : ؛ تمتح. المرتبطة الجدول تي كميات هما : لبي صحيحا وقسم الصناعات السمكية التقليب على مدى بت و المناصب. الجدول تي هي التي شيدت من خلال تطبيق لقسم الصناعات السمكية التقليب كل البصمات الموجودة ؛ المجموعة الناتجة من مبدل و بصمات - بت يتم فرزها. كذلك ، كل جدول مضغوط (انظر x3.2) وتخزينها في الذاكرة الرئيسية من مجموعة من الآلات. نظرا البصمات واو وك صحيحا ،
نحن التحقيق في هذه الجداول متوازية :
الخطوة 1 : تحديد جميع بصمات مبدل في تي بي الذي أعلى قليلا من المناصب العليا في المباراة باي بت مواقف قسم الصناعات السمكية (واو).
الخطوة 2 : وبالنسبة لكل من بصمات مبدل التي تم تحديدها في الخطوة 1 ، تحقق مما إذا كانت تختلف عن قسم الصناعات السمكية (واو) في معظم مناصب في بت ك.
في الخطوة 1 ، والتعرف على البصمة الأولى في الجدول الذي رأس تي بي بت مواقف تتطابق مع أعلى باي بت مواقف قسم الصناعات السمكية (واو) الذي يمكن القيام به في سين (باي) واتخاذ خطوات من جانب بحث ثنائي. لو افترضنا أن كل البصمات كانت حقا بت تسلسل عشوائي ،
ابحث عن الاستيفاء ينكمش في وقت التشغيل إلى سين (سجل باي) خطوات في انتظار [52].
3.1.1 استكشاف معالم التصميم
دعونا نرى كيف مزيج معقول من طن وبي يمكن أن تكون ثابتة. لدينا اثنين من أهداف التصميم : (1) مجموعة صغيرة من التباديل لتجنب تضخم في متطلبات المساحة ، و (2) القيم الكبيرة لبي مختلفة لتجنب التدقيق الكثير من البصمات في الخطوة 2. أذكر بأن إذا كنا نسعى جميعا (مبدل) تطابق البصمات التي بت كبار بي لموقع معين (مبدل) البصمات ، فإننا نتوقع 2d بصمات بي في المباريات. المسلحة مع هذه الرؤية ، فإننا نقدم بعض الأمثلة لو 64 و ك = = 3. نقدم حلا التحليلية في x3.1.2.
مثال 3.1. تنظر و = 64 (64 - بصمات بت) ، و ك = 3 حتى شبه مكررة 'بصمات الأصابع تختلف في 3 بت في معظم المواقف. نفترض لدينا 8B = 234 البصمات الموجودة ، أي د = 34. وهنا أربعة تصاميم مختلفة ، كل تصميم يحتوي على مجموعة مختلفة من التباديل والقيم باي.
20 الجداول : سبليت 6 إلى 64 بت وجود كتل 11 ، 11 ، 11،11 ، 10 و 10 بت على التوالي. هناك 6 = 20 من اختيار 3 طرق للخروج من هذه الكتل 6. لكل خيار من هذا القبيل ، فاي التقليب يناظر صنع البتات الكذب في كتل اختيار البتات الرائدة (هناك عدة تبديلات من هذا القبيل ؛ نختار واحد منهم بشكل موحد على نحو عشوائي). قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 31 ؛ 32 أو 33. في المتوسط ، والتحقيق في معظم باسترداد 234 31 = 8 (مبدل) البصمات.
16 الجداول : سبليت 64 بت في 4 بنات ، ولكل منها 16 بت. هناك 41 = 4 طرق لاختيار 1 للخروج من هذه 4blocks. لكل خيار من هذا القبيل ، ونحن الفجوة البتات 48 المتبقية الى اربع كتل ذات 12 بت لكل منهما. هناك 4 = 4 طرق لاختيار 1 إلى 4 من هذه الكتل. والتقليب للحصول على طاولة يناظر بت في وضع لبنات في اختيار المناصب القيادية. قيمة باي هو 28 لجميع الكتل. في المتوسط ، وتحقيق باسترداد 234 28 = 64 (مبدل) البصمات.
10 الجداول : سبليت 64 بت في 5 بنات بعد 13 ، 13 ، 13 ، 13and 12 بت على التوالي. هناك 5 = 10 سبل اختيار 2 من هذه الكتل 5. لكل خيار من هذا القبيل ، فاي التقليب يناظر صنع البتات الكذب في كتل اختيار البتات الرائدة. قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 25 أو 26. في المتوسط ، والتحقيق في معظم باسترداد
234 25 = 512 (مبدل) البصمات.
4 الجداول : سبليت 64 بت في 4 بنات ، ولكل منها 16 بت. هناك 4 = 4 طرق لاختيار 1 إلى 4 من هذه الكتل. لكل خيار من هذا القبيل ، إذا التقليب corre -
sponds لجعل بت الكذب في كتل اختيار البتات الرائدة. قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 16. في المتوسط ،
التحقيق في معظم باسترداد 234 16 = 256K (مبدل) البصمات.
3.1.2 الأمثل لعدد من الجداول
3.1 سبيل المثال تبين أن العديد من خيارات التصميم difierent ممكنة لخيار ثابت و وk. زيادة عدد جداول الزيادات باي ، وبالتالي يقلل من الوقت الاستعلام. خفض عدد الجداول يقلل من متطلبات التخزين ، ولكن باي ، وبالتالي يقلل من الزيادات في الوقت الاستعلام. وثمة نهج معقولة لإصلاح التجارة اوفي بين الفضاء والزمن هو أن نطرح السؤال التالي : كيف العديد من الجداول التي نحتاج إذا كان لنا أن تحد من قيمة الحد الأدنى لبي
بعض المستمر؟ لعدد محدد من الوثائق 2d ، حجم و البصمات ، والحد الأقصى المسموح به المبالغة ك المسافة ، فإن الحل لهذه المشكلة العامة هي التي قدمها في التعبير التالي :
س (و ، ك ، (د) = 1 إذا د <فاي
حيث العاشر (و ، ك ، (د) يمثل عدد من الجداول المطلوبة ، وفاي عتبة تتحدد قيمة الحد الأدنى المسموح به قيمة باي : إذا كانت قيمة الحد الأدنى هو pmin ، فاي = د pmin. بالتناوب ، ويمكن للمرء أن يتساءل ما هي قيمة الحد الأقصى بي
وإذا كان لنا أن تحد من العدد الإجمالي لعدد الجداول لبعض. هذه المشكلة لا يمكن حلها بالمثل.
3.2 ضغط من بصمات الأصابع
ضغط يمكن تقليص أحجام الجداول الفردية. على سبيل المثال ، لأحجام الجدول 8B الوثائق والبصمات 64 بت يمكن تقليصه إلى النصف تقريبا أحجامها. البصيرة الرئيسي هو ان بصمات المتعاقبة حصة البتات د كبار في التوقع. علينا استغلال هذه الحقيقة على النحو التالي. ح السماح للدلالة على موقف معظم - 1 كبيرة بت في XOR اثنين من بصمات على التوالي. ح بالتالي يأخذ القيم
وبين 0 و 1 . للاطلاع على جدول معين ، ونحن أول من حساب توزيع القيم ح ثم احسب رمز Hufiman [37] على [0 ؛ و 1] لهذا التوزيع. المقبل ، ونحن اختيار باء المعلمة التي تدل على حجم الكتلة. القيمة النموذجية ل
باء سيكون 1024 بايت. كتلة مع وباء بايت 8B بت. علينا تفحص تسلسل فرزها من بصمات الأصابع (مبدل) في جدول وتعبئة كتل المتعاقبة على النحو التالي :
الخطوة 1 : والبصمات الأولى في كتلة تذكرت في مجملها. هذا يستهلك 8f بت. بعد ذلك ، هو الخطوة 2 المتكررة لبصمات المتعاقبة حتى كتلة هو الكامل ، أي أننا لا نستطيع القيام الخطوة 2 دون الحاجة 8B + 1 بت أو أكثر.
الخطوة 2 : احتساب XOR من البصمات الحالية مع البصمات السابقة. العثور على موقف mostsigni ficant 1 بت. إلحاق Hufiman رمز لهذا
بت لموقف الكتلة. ثم إلحاق البتات إلى اليمين من معظم - 1 كبيرة بت إلى كتلة.
مفتاح المرتبطة كتلة هو البصمة الأخيرة التي تم تذكرت في تلك الكتلة. عندما (مبدل) البصمات وصول ، واستيفاء البحث [52] على مفاتيح تساعدنا على معرفة أي عرقلة للضغط. يتوقف
قيمة باي ود ، وعلى توزيع بصمات (simhash يميل إلى كتلة من الوثائق المماثلة معا) ، ونحن أحيانا يكون لضغط كتل متعددة.
3.3 خوارزمية للاستعلامات الدفعية
كما هو مذكور في بداية x3 ، في إصدار دفعة من المبالغة المسافة مشكلة ، لدينا مجموعة من البصمات استعلام بدلا من البصمة الانفرادي الاستعلام. نفترض أن يتم تخزين بصمات الأصابع الموجودة في ملف وواو
أن الدفعي البصمات الاستعلام المخزنة في ملف Q. مع 8B 64 البصمات بت سوف واو ملف يحتلون 64GB. الضغط (انظر x3.2) تقليص حجم الملف إلى أقل من 32GB. وقال الدفعي من أجل من 1M بصمات الأصابع ، لذلك اسمحوا لنا أن نفترض أن الملف سؤال تحتل 8MB. في مجموعات ، على سبيل المثال ، الملفات واو وسؤال سوف تكون مخزنة في أي شيء مشترك ، وزعت ملف يسمى نظام إحصاءات مالية الحكومة ([29]. إحصاءات المالية الحكومية الملفات اقتحام 64MB قطع. كل قطعة في ثلاث نسخ (تقريبا) تم اختيارهم عشوائيا الآلات في كتلة ؛ يتم تخزين كل قطعة على شكل ملف في نظام الملفات المحلي.
باستخدام خريطة تقليل الإطار [24] ، ويمكن حساب عموما يمكن تقسيم مريح إلى مرحلتين. في المرحلة الأولى ، كما ان هناك العديد من المهام الحسابية على عدد من كتل من واو (في خريطة تقليل المصطلحات ، وهذه المهام هي
دعا المخططون). كل مهمة يحل مشكلة المبالغة المسافة أكثر من 64 ميغابايت في بعض قطعة من واو والملف بأكمله سؤال كمدخلات. وهناك قائمة من بصمات - مكررة اكتشفت بالقرب من مهمة ينتج عن انتاجها. في المرحلة الثانية ،
خفض خريطة يجمع جميع النواتج ، ويزيل التكرارات وتنتج فرز ملف واحد. نود أن نذكر بضع نقاط عن الكفاءة. أولا ، تسعى جاهدة للحد من خريطة تعظيم المكان ، أي أكثر المخططون هم في موقع مشترك مع الآلات التي تعقد في قطع الموكلة اليهم ، وهذا يجنب قطع الشحن عبر الشبكة. الثاني ، الملف سؤال يوضع في دليل إحصاءات مالية الحكومة مع عامل النسخ المتماثل أكبر بكثير من ثلاثة. ومن ثم نسخ ملف سؤال لمختلف المخططون لا اصبح يمثل عنق زجاجة (يرجى الاطلاع على ورقة إحصاءات مالية الحكومة لمناقشة هذه المسألة). كيف يمكننا حل مشكلة المبالغة المسافة مع ملف سؤال و64 ميغابايت في قطعة من واو الملف؟ علينا أن نبني الجداول ، على النحو المبين في x3.1 الموافق ملف سؤال (لاحظ أن للوضع على الانترنت ، والجداول بنيت لملف واو). لأن كل فرد الجدول مضغوط تحتل 8MB ، يمكننا بسهولة بناء مثل هذه الجداول 10 في الذاكرة الرئيسية ، دون أن تخشى من ضغط. بعد بناء على الجداول ، ونقوم بالبحث عن قطعة بالتسلسل ، الذين يحققون في الجداول عن كل البصمات التي ووجهت في المسح الضوئي.
3.3 العمل السابقة
وهناك نسخة معممة من المبالغة المسافة مشكلة كان اول من اقترح منسكي وبابيرت [44] : وبالنظر إلى مجموعة من السلاسل و ن بت (من اختيار عدو) ، وواو السلسلة ، والهدف من ذلك هو تحديد سلاسل في المجموعة التي تختلف من واو
في في معظم د بت المواقف. لا حلول فعالة معروفة لعامة ن ، و و د وكانت الدراسة النظرية التي بدأها وياو ياو [53]) ، الذي طور خوارزمية eficient لد = 1. والخوارزمية وتحسنت Brodal وGfiasienec [10] وBrodal وكريمو [11]. لالكبيرة د ، بعض التقدم هي التي أبلغت عنها غرين ، Parnas وياو [31] ، دوليف وآخرون [28] وارسلان وEfigeciofiglu [3].
مشكلتنا تختلف من واحدة موجهة من قبل المجتمع نظرية في جانبين. أولا ، علينا أن نفترض أن المدخل يتكون من بت السلاسل المختارة عشوائيا موحد (مع بعض المنظمات غير التوحيد الذي عرضته simhash التجزئة
وثائق مماثلة لقيم مماثلة). ثانيا ، نحن نتعامل مع عدد كبير جدا من بت الجمل التي لا تندرج في الذاكرة الرئيسية للجهاز واحد ، وهذا تحد لنا لخوارزميات بسيطة الذاكرة الخارجية التي تعمل بشكل جيد في تحديد توزيعها.
الشكل 1 : الدقة مقابل أذكر لمختلف k.
4. النتائج التجريبية
أي عمل سابق قام بدراسة للتجارة بين اوفي و ك و لغرض الكشف عن شبه مكررة صفحات الويب باستخدام simhash. لذا هدفنا الأول هو التأكد من simhash هو أسلوب معقول أخذ البصمات للكشف عن قرب مكررة في المقام الأول. نحن simhash الدراسة في x4.1. المقبل ، أردنا أن نتأكد من أن المجموعات التي تنتجها simhash لا تأثير لدينا من معادلات كبيرة. نحن نحلل التوزيعات من بصمات في x4.2. أخيرا ، علينا أن أتناول قضايا تشغل أوقات والتدرجية في x4.3.
4.1 اختيار معلمات
نحن جربت 234 = 8B simhash بصمات الأصابع. نحن ك متنوعة من 1 إلى 10. لكل ك ، ونحن العينة عشوائيا على عدد متساو من أزواج من البصمات التي يتم المبالغة في المسافة بالضبط k. نحن يدويا الموسومة كل زوج على النحو التالي : (1)
حقيقية إيجابية ؛ (2) إيجابية كاذبة ، أو (3) غير معروف. كنا من المبادئ التوجيهية [35] للبت فيها من الفئات الثلاث لوضع الزوج في | مختلفة اختلافا جذريا أزواج كاذبة إيجابية ؛ الصفحات التي تختلف قليلا ، إلا في مثل عدادات ، والإعلانات ، أو
الطوابع الزمنية صحيحا إيجابية ؛ ، والصفحات التي لا يمكن تقييمها ، على سبيل المثال ، بسبب محتوى بلغة غير الانكليزية ، أو لأن هناك حاجة إلى الدخول للوصول إلى صفحة ، ويوصف بانه غير معروف. الشكل 1 يرسم بدقة أذكر الرسم البياني لتجاربنا. الدقة وتعرف بأنها جزء من المبلغ عنها بالقرب من التكرارات
(على سبيل المثال ، وبعد المسافة المبالغة في معظم ك) التي هي ايجابيات صحيحا. أذكر يدل على جزء يسير من العدد الإجمالي للأزواج ، مكررة القريب (في العينة) أن تحصل على الكشف عن المسافة مع المبالغة في معظم k. الشكل 1 يبين بوضوح بين التجارة وأوفيس لقيم مختلفة من ك : قيمة منخفضة جدا يفتقد شبه مكررة (سلبيات واهية) ،
وقيمة عالية جدا السمات أزواج غير صحيح أنها مكررة ، بالقرب من (ايجابيات كاذبة). اختيار ك = 3 هو معقول لأن كلا من الدقة والتذكير بالقرب 0:75. لذلك ، لبصمات 64 بت ، معلنا عن وثيقتين شبه مكررة عند بصماتهم في تختلف في معظم 3 بت يعطي دقة عالية نسبيا.
4.2 توزيع بصمات الأصابع
نحن لدينا تصميم الخوارزمية على افتراض أن بصمات simhash. الوثائق عبر الإنترنت بصورة موحدة عشوائي. ومع ذلك ، يميل إلى simhash العنقودية وثائق مشابهة معا.
الرقم 2 (أ) يوضح هذه الظاهرة من الناحية الكمية.
في الشكل رقم 2 (أ) ، ونحن في مؤامرة لتوزيع بت مواقف رائدة 1 بت في XOR لبصمات الأصابع على التوالي. إذا كانوا حقا بصمات عشوائي ، من شأنه أن شهدنا التوزيع المتناسق الذي من شأنه أن تسوس أضعافا مضاعفة (من ص
قيمة من شأنها أن تقلل بمقدار النصف عن كل الزيادة / إنقاص من قيمة س). علما بأن النصف الأيمن من التوزيع في الواقع يسلك هذا السلوك. ومع ذلك ، فإن اليسار نصف التوزيع لا يسهو اوفي بسرعة ؛ هناك كثافة كبيرة. هذا هو واضح نتيجة لتجميع الوثائق ، وهناك أزواج من الوثائق التي simhash القيم تختلف حسب عدد البتات معتدلة لأنها تحتوي على محتوى مماثل. في الشكل 2 (ب) ، ونحن في مؤامرة لتوزيع 128 البصمات في دلاء ؛ حدود دلو يتم تعريفها من خلال تقسيم المساحة من 128 الى 2f بصمات متساوية الحجم فترات متجاورة. بصمات الأصابع هي أكثر أو أقل من زمنية متساوية. الغريب أن بعض المسامير وجود لها. هذه تحدث نتيجة لمجموعة متنوعة من الأسباب. بعض الأمثلة : (ط) عدة صفحات فارغة ، كل هذه لها قيمة simhash 0 ، (ب) هناك عدة حالات من \ ملف يتم العثور على "صفحات ، و (ج) العديد من المواقع تستخدم نفس لوحة الإعلانات البرمجيات ، والدخول صفحات
هذه المواقع هي مماثلة.
4.3 التدرجية
لوضع دفعة الخوارزمية ، ونسخة من ملف مضغوط سؤال يشغل تقريبا 32GB (بالمقارنة مع 64GB مضغوط). مع 200 المخططون ، يمكننا أن تفحص قطع بمعدل مجتمعة أكثر من 1GBps. حتى انتهاء حساب عموما في أقل من 100 ثانية. ضغط يلعب دورا مهما في تسريع نظرا لعدد محدد من المخططون ، والوقت الذي يستغرقه تقريبا بما يتناسب مع حجم الملف Q.
5. الكشف عن التكرار : دراسة استقصائية
مجموعة متنوعة من التقنيات التي تم تطويرها لتحديد أزواج من الوثائق التي هي "مشابهة" لبعضهما البعض ، وهذه تختلف من حيث الهدف والغاية ، والإحضار قيد النظر ، والميزة في المجموعة التي تم تحديدها في الوثيقة والتوقيع على مخطط للضغط على ميزة في المجموعة ، وفي هذا القسم ، القسم ، فإننا نقدم استعراضا mprehensive القريبة من أنظمة الكشف عن التكرار. وفي عملية تلخيص التصميم الشامل في الفضاء ، ونحن لدينا مشكلة تسليط الضوء على الكيفية يختلف
في وقت سابق العمل والسبب في ذلك مزايا وsimhash النهج القائم.
5.1 طبيعة الإحضار
بصفة عامة ، مكررة أنظمة الكشف وضعت لأربعة أنواع من المجموعات الوثيقة :
أ) مستندات ويب : الأدنى نظم مكررة وقد وضعت من أجل العثور على صفحات ذات الصلة [25] ، لاستخراج البيانات المهيكلة [2]) ، والشبكة العالمية لتحديد المرايا [6،7].
ب) الملفات في نظام الملفات : مانبر [42] تطوير خوارزميات لقرب الكشف عن التكرار للحد من لتخزين الملفات. وVenti ملف النظام [48]) ، وعرض النطاق الترددي منخفض ملف النظام [45] وقد دوافع مماثلة.
ج) البريد الإلكتروني : Kolcz وآخرون [40] تحديد شبه مكررة من أجل الكشف المزعج.
د) المجال - المجاميع الخاصة : مجموعات مختلفة قد وضعت بالقرب من أنظمة الكشف عن وثائق قانونية مكررة (انظر كونراد وSchriber [22]) ، المحركة المقاييس ، رويترز المواد الإخبارية ، وCiteseer البيانات.
عملنا يقع ضمن الفئة الأولى (مستندات ويب). نحن جربت 8B (صفحات هذا هو الطريق أحجام أكبر من جمع للعرقلة من الدراسات السابقة : على شبكة الإنترنت عن طريق تجميع برودور وآخرون [14] (30M عناوين المواقع في عام 1996) ، "ذات صلة" صفحات من قبل عميد الكلية وHenzinger [25] (180m في عناوين المواقع 1998) ، على شبكة الإنترنت عن طريق تجميع Haveliwala وآخرون [33] (35M عناوين المواقع في عام 2000).
5.2 إن نهاية الهدف : لماذا كشف مكررة؟
أ) ويب المرايا : للبحث على شبكة الإنترنت ، وتحديد الناجح لشبكة الإنترنت المرايا النتائج في أصغر الزحف / التخزين / تكاليف الفهرسة في ظل غياب شبه مكررة ، وأفضل النتائج من أعلى ك للاستعلامات البحث ، والتحسن في الصفحة ، عن طريق تخفيض رتبة
في هذه الدرجة من المواقع الناجمة عن قرب مكررة ، وتوفير التكاليف التي لا نطلب من الإنسان إلى رتبة المقيمون بالقرب من التكرارات. انظر بهارات وآخرون [6 ، 7] لإجراء مقارنة بين تقنيات التعرف على شبكة الإنترنت المرايا.
ب) للتقسيم "الوثائق ذات الصلة" الاستعلام : فعلى سبيل المثال ، وبالنظر إلى المادة الإخبارية ، على الويب سيرفر قد تكون مهتمة في العثور على المواد الإخبارية من مصادر أخرى أن
التبليغ عن نفس الحدث. مفهوم "التشابه" هو على مستوى عال (يمكن لأحد أن يقول أن فكرة التشابه هو "الدلالي" بدلا من "النحوية" ، مختلفة تماما
من فكرة التكرار أو شبه مكررة التي نوقشت أعلاه. نهج واحد هو استخدام خفية الفهرسة الدلالي [26]. ثمة نهج آخر هو استغلال بنية الربط بين شبكة الويب (انظر دين وHenzinger [25] الذين يبنون عليها كلينبيرج فكرة المحاور والسلطات [39]). المضي قدما على هذا المنوال ، كومار وآخرون [41] قد اقترحت اكتشاف \ المجتمعات المحلية على الانترنت "من خلال تحديد كثافة شبه ثنائية الرسوم البيانية للشبكة الإنترنت الرسم البياني.
ج) واستخراج البيانات : نظرا معتدلة الحجم مجموعة من صفحات مماثلة ، ويقول في استعراض www.imdb.com ، والهدف هو التعرف على المخطط / اليومي الكامنة وراء جمع حتى نتمكن من استخراج وتصنيف المعلومات المفيدة من هذه الصفحات. انظر جوشي وآخرون [38] (والإشارات الواردة فيه) للتقنية التي كتل صفحات على شبكة الإنترنت على أساس التشابه الهيكلي. انظر Arasu وجارسيا مولينا ([2] لأسلوب آخر أن يحدد القوالب الكامنة صفحات مع هيكل مماثل. نلاحظ أيضا أن البيانات الوصفية (تم تجاهل السمات أتش تي أم أل) في (أ) و (ب) أعلاه.
د) الإنتحال : وبالنظر الى مجموعة من التقارير والمقالات أو دفوع الاحالة (وكلاهما مصدر رمز وتقارير نصية) ، والهدف من ذلك هو تحديد أزواج من الوثائق التي يبدو انها اقترضت من بعضهما البعض بشكل كبير. بالنسبة لبعض العمل في وقت مبكر في هذا المجال ، انظر المواد التي يقوم بها بيكر [4 ، 5] ، ونظام مؤتمرات الأطراف عن طريق برين وآخرون ([8] واحتيال من قبل شيفاكومار وجارسيا مولينا ([51].
ه) الكشف المزعج : ونظرا لعدد كبير من تلقى مؤخرا رسائل البريد الإلكتروني ، والهدف من ذلك هو التعرف على الرسائل الاقتحامية قبل إيداع البريد الإلكتروني في علب البريد 'المستلمين. أل
الافتراض هو ان يحتفظ مماثلة إرسال رسائل البريد الإلكتروني بشكل جماعي ، مع تغير طفيف في الجسم من هذه الرسائل الإلكترونية. انظر Kolcz وآخرون [40] ، الذين نبني على عمل سابق لشودري وآخرون [20].
و) التكرارات في المجال المجاميع محددة : إن الهدف هو تحديد شبه مكررة الناشئة عن تنقيحات ، مودى - fications ، أو الاندماج نسخ من الوثائق ، وما إلى ذلك (انظر كونراد وSchriber [22]) لدراسة الحالة التي تنطوي على وثائق قانونية وطيد. مانبر [42] بدأت تحقيقا في التعرف على ملفات مماثلة في نظام الملفات. لدينا شبه مكررة يحسن نظام الكشف عن الزحف على شبكة الإنترنت ، وهو هدف لا يشارك مع أي من النظم الموصوفة أعلاه.
5.3 ميزة تعيين لكل وثيقة
والألواح) من محتوى الصفحة : النظر في تسلسل الكلمات في المستند. وحصى هو تجزئة القيمة لك جرام وهو شبه تسلسل ك الكلمات المتعاقبة. مجموعة من ألواح تشكل مجموعة من الميزات وثيقة. اختيار ك هو crucial3. ويمكن من علامات الرقم ك المتعاقبة غرام بكفاءة حسابها باستخدام تقنية البصمات رابين [49]. مانبر [42] خلق الواح على الحروف. نظام مؤتمرات الأطراف عن طريق برين وآخرون ([8] الجمل المستخدمة لإنشاء القوباء المنطقية. برودر وآخرون [12 ، 14] خلق الواح أكثر من الكلمات. العدد الإجمالي للالواح في الوثيقة بوضوح كبير. ولذلك ، صغيرة الحجم يتم حسابها التوقيع على مجموعة من الألواح ، كما هو موضح في القسم الفرعي التالي.
ب) من الوثيقة ناقلات محتوى الصفحة : وعلى النقيض من القوباء المنطقية ، يمكن وصف وثيقة تكون عن طريق نشر تقنيات الأشعة تحت الحمراء التقليدية. والفكرة هي لحساب وثيقة "متجه" من قضية قابلة للطي ، ووقف نقل الأمتعة الكلمة ، ووقف ، والحوسبة الأجل الترددات وأخيرا ، وتزن كل مصطلح من ترددها معكوس الوثيقة (الجيش الاسرائيلي). التالي ، نظرا ثيقتين ، أ \ التدبير "التشابه يتم تعريفها. هواد وزوبل [36] القول بأن جيب التمام التقليدية لقياس التشابه غير كافية للكشف عن ازدواجية القريب. انهم تحديد وتقييم مجموعة متنوعة
of similarity measures (but they do not develop any signature-scheme to compress the document-vectors). A different approach is taken by Chowdhury et al [20] who compute a lexicon (the union of all terms existing in the collection of documents). The lexicon is then pruned (a variety of schemes are studied by the authors). Each document-vector is then modified by removing terms that have been pruned from the lexicon. The resulting document-vectors are fingerprinted. Two documents are said to be near-duplicates ifi their fingerprints match. This scheme is rather brittle for near duplicate detection { a follow-up paper [40] ameliorates the problem by constructing multiple lexicons (these are random subsets of the original lexicon). Now multiple fingerprints per document are computed and two documents are said to be duplicates ifi most of their fingerprints match. An issue to keep in mind when dealing with document vectors
is that the IDF of any term is global information which changes as the collection changes.
c) Connectivity information: For the purpose of finding \related pages", Dean and Henzinger [25] exploited the linkage structure of the web. The premise is that similar pages would have several incoming links in common. Haveliwala et al [34] point out that the quality of duplicate detection is poor for pages with very few incoming links. This can be ameliorated by taking anchor text and anchor windows into account.
d) Anchor text, anchor window: Similar documents should have similar anchor text. Haveliwala et al [34] study the impact of anchor-text and anchor-windows,
where an anchor-window is the text surrounding the anchor text, for example, the paragraph it belongs to. The words in the anchor text/window are folded into the
document-vector itself. A weighing function that diminishes the weight of words that are farther away from the anchor text is shown to work well.
e) Phrases: Cooper et al [23] propose identification of phrases using a phrase-detection system and computing a document-vector that includes phrases as terms. They have tested their ideas on a very small collection (tens of thousands). The idea of using phrases also appears in the work of Hammouda and Kamel [32] who build sophisticated indexing techniques for web-clustering.
We chose to work with the document vector model; simhash converts document vectors into fingerprints. Augmenting the document vector by other signals (anchor text and connectivity information, for example) might improve the quality
of our system. We leave these possibilities as future work.
5.4 Signature schemes
a) Mod-p shingles: A simple compression scheme for shingle based fingerprints is to retain only those fingerprints whose remainder modulus p is 0, for a sufficiently large value of p. The number of fingerprints retained is variable sized. Moreover, it is important to ignore commonly occurring fingerprints since they contribute to false-matches. A drawback of this scheme is that the distance between
successive shingles that are retained, is unbounded. This problem has been ameliorated by the “winnowing" technique by Schliemer et al [50]. Hoad and Zobel [36] compare a variety of other ideas for pruning the set of shingle-based fingerprints.
b) Min-hash for Jaccard similarity of sets: For two sets A and B, let the measure of similarity be jA\Bj jA[Bj , also known as the Jaccard measure. Interestingly, it is possible to devise a simple signature scheme such that the probability that the signatures of A and B match is exactly the Jaccard measure [13, 14]. Several experimental studies have tested the eficacy of min-hash in various settings (Cohen et al [21] for associationrule mining, Chen et al [18] for selectivity estimation of boolean queries, Gionis et al [30] for indexing set-value predicates and Haveliwala [33] for web-clustering).
c) Signatures/fingerprints over IR-based document vectors: Charikar's simhash [17] is a fingerprinting technique for compressing document vectors such that two
fingerprints are similar ifi the document vectors are similar. Another technique for computing signatures over document-vectors is the I-Match algorithm by Chowdhury et al [20] that we described earlier. An improved I-Match algorithm appears in [40]. These algorithms have been tested on small document- collections (of the order of tens of thousands) and appear fairly brittle.
d) Checksums: Pugh and Henzinger's patent [47] contains the following idea: we divide words in a document into k buckets (by hashing the words, for example), and compute a checksum of each bucket. The set of checksums of two similar documents should agree for most of the buckets. We chose to work with simhash primarily because it allows us to work with small-sized fingerprints.
6. FUTURE EXPLORATIONS
Using simhash is a good first step for solving the near duplicate detection problem. Many other ideas hold promise of improving the quality of near-duplicate detection, and/or making the system more efficient. We list a few:
A. Document size has been shown to play an important role in near-duplicate detection in certain contexts. For example, in Conrad and Schriber [22], two legal documents are deemed to be duplicates ifi they have 80% overlap in terminology and fi20% variation in length (these were arrived at by consulting the Library Advisory Board who are trained in the field of Library Science). ربما
we should devise different techniques for small and large documents. Or perhaps, we should reserve a few bits of the 64-bit fingerprint to hold document length. B. Is it possible to prune the space of existing fingerprints by asserting that certain documents never have duplicates?
C. Could we categorize web-pages into different categories (for example, by language type), and search for near duplicates only within the relevant categories.
D. Is it feasible to devise algorithms for detecting portions of web-pages that contains ads or timestamps? Perhaps such portions can be automatically removed so that exact checksums over the remaining page suffice for duplicate
الكشف.
E. How sensitive is simhash-based near-duplicate detection to changes in the algorithm for feature-selection and assignment of weights to features?
F. How relevant are simhash-based techniques for focused crawlers [27, 43, 46] which are quite likely to crawl web pages that are similar to each other.
G. Can near-duplicate detection algorithms be developed further to facilitate clustering of documents?
7.Summary
Most algorithms for near-duplicate detection run in batchmode over the entire collection of documents. For web crawling, an online algorithm is necessary because the decision to ignore the hyper-links in a recently-crawled page has
to be made quickly. The scale of the problem (billions of documents) limits us to small-sized fingerprints. Luckily, Charikar's simhash technique with 64-bit fingerprints seems to work well in practice for a repository of 8B web pages.
8. المراجع
[1] A. Arasu, J. Cho, H. Garcia-Molina, A. Paepcke, and S. Raghavan. Searching the web. ACM Transactions on Internet Technology, 1(1):2{43, 2001.
[2] A. Arasu and H. Garcia-Molina. Extracting structured data from web pages. In Proc. ACM SIGMOD 2003, pages 337{348, 2003.
[3] A. N. Arslan and ? O. Efigeciofiglu. Dictionary look-up within small edit distance. In Proc. 8th Annual Intl. Computing and Combinatorics Conference
(COCOON'02), pages 127{136, 2002.
[4] B. S. Baker. A theory of parameterized pattern matching algorithms and applications. In Proc. 25th Annual Symposium on Theory of Computing (STOC
1993), pages 71{80, 1993.
[5] B. S. Baker. On finding duplication and near-duplication in large software systems. In Proc. 2nd Working Conference on Reverse Engineering, page 86, 1995.
[6] K. Bharat and A. Broder. Mirror, mirror on the Web: A study of hst pairs with replicated content. In Proc
لويب الزحف
الملخص
بالقرب من وثائق على شبكة الإنترنت مكررة وفيرة. اثنين من هذه الوثائق تختلف عن بعضها البعض في جزء صغير جدا التي تعرض الإعلانات ، وعلى سبيل المثال. وهذه الاختلافات لا تمت بصلة للبحث على شبكة الإنترنت. وحتى نوعية الزيادات زاحف الويب إذا كان يمكن تقييم ما إذا كان حديثا زحف صفحة الويب هي شبه مكررة من قبل زحف صفحة الويب أم لا. في سياق وضع بالقرب من نظام الكشف عن التكرار لعدة مليارات صفحة مستودع ، ونحن جعل اثنين من المساهمات البحثية. أولا ، علينا أن نبرهن على شاريكار وتقنية البصمات هي المناسبة لتحقيق هذا الهدف. ثانيا ، نحن في عرض تقنية حاسوبية لتحديد البصمات الموجودة ، و التي تختلف قليلا من البصمات في المقدمة في معظم ك بت المواقف ، لk. الصغيرة لدينا التقنية مفيدة لكلا الاستعلامات على شبكة الإنترنت (بصمات الأصابع واحد) والاستفسارات الدفعي (بصمات متعددة). التقييم التجريبي على بيانات حقيقية ويؤكد التطبيق العملي لدينا تصميم.
1. مقدمة
الزحف على شبكة الإنترنت هو جزء لا يتجزأ من البنية التحتية لمحركات البحث. الزواحف عام الزحف وثائق وصلات ينتمون إلى مجموعة متنوعة من المواضيع ، في حين ركزت بعض الزواحف استخدام المعرفة المتخصصة للحد من الزحف إلى صفحات تتعلق بمواضيع محددة. من أجل الزحف على شبكة الإنترنت ، مثل قضايا نضارة وكفاءة استخدام الموارد قد سبق تناولها. ومع ذلك ، فإن مشكلة القضاء على بالقرب من وثائق على شبكة الإنترنت مكررة في الزحف عامة لم تحظ بالاهتمام.
المستندات التي يتم نسخ طبق الأصل من بعضها البعض (بسبب المتطابق والانتحال) من السهل تحديد معيار الاختيار من تقنيات التلخيص. والمشكلة الأصعب هي تحديد لمستندات - مكررة القريب. اثنين من هذه الوثائق متطابقة من حيث المحتوى ولكنها تختلف في جزء صغير من هذه الوثيقة ، مثل الإعلانات ، والعدادات والطوابع الزمنية. هذه الاختلافات لا تمت بصلة للبحث على شبكة الإنترنت. حتى إذا كان حديثا زحف Pduplicate الصفحة يعتبر شبه مكررة من بالفعل الزحف الصفحة ف ، المحرك الزحف ينبغي تجاهل Pduplicate وصلاتها خارج يذهب بأكمله (الحدس يوحي بأن هذه ربما تكون شبه مكررة من الصفحات للوصول من ف ). القضاء على شبه مكررة يحفظ النطاق الترددي للشبكة ، ويقلل من تكاليف التخزين ، وتحسن من نوعية فهارس البحث. كما أنه يقلل العبء الملقى على عاتق المضيف البعيد هي التي تخدم صفحات الويب من هذا القبيل. وهناك نظام للكشف عن صفحات مكررة - بالقرب يواجه عددا من التحديات. أولا وقبل كل شيء هو مسألة الحجم : محركات البحث مؤشر المليارات من صفحات الويب ، وهذا يرقى الى قاعدة بيانات متعددة تيرابايت. ثانيا ، ينبغي أن محرك الزحف تكون قادرة على الزحف المليارات من صفحات الويب في اليوم الواحد. لذلك كان القرار لإحياء حديثا زحف الصفحة كما شبه مكررة من صفحة موجودة ينبغي أن يكون سريعا. وأخيرا ، ينبغي للنظام واستخدام آلات قليلة قدر الإمكان. هنا نحن نعتبر ما يلي :
A. نحن يبين أن شاريكار في simhash عمليا مفيدا لتحديد شبه مكررة في وثائق الشبكة تنتمي إلى عدة مليارات صفحة مستودع. simhash هو تقنية البصمات التي تتمتع الممتلكات التي بصمات شبه مكررة تختلف في عدد صغير من مواقف بعض الشيء. علينا التحقق من أن تجريبيا لمستودع لل8B صفحة الويب ، 64 بت وبصمات simhash ك = 3 معقولة (القسم 2).
B. وتطوير تقنية من أجل حل مشكلة المبالغة المسافة : في جمع بصمات الأصابع ، و بت وسرعة وجميع البصمات التي تختلف عن بصمة الاصبع على مواقع معينة في معظم ك بت ، حيث ك عدد صحيح الصغيرة. لدينا التقنية مفيدة لكلا الاستعلامات على شبكة الإنترنت (بصمات الأصابع واحد) والاستفسارات الدفعي (بصمات متعددة).
C. ونحن حاليا مسحا للخوارزميات وتقنيات الكشف عن التكرار (القسم 5).
2. أخذ البصمات مع SIMHASH
شاريكار في simhash هو الحد من أبعاد تقنية. وخرائط ثلاثية الأبعاد عالية ناقلات صغيرة الحجم لبصمات الأصابع. يتم تطبيقه على صفحات الشبكة العالمية على النحو التالي : نحن أول من تحويل صفحات الانترنت إلى مجموعة من الميزات ، كل ميزة الموسومة
بكل ثقلها. ميزات يتم حسابها باستخدام تقنيات الأشعة تحت الحمراء قياسية مثل tokenization لطي القضية ، ووقف إزالة كلمة ، ووقف وكشف جملة. مجموعة من الميزات مرجح يشكل رفيع متجه الابعاد ، مع البعد واحد لكل ميزة فريدة من نوعها في جميع الوثائق مجتمعة. مع simhash ، يمكننا أن نحول هذه رفيع متجه الى الابعاد و - البصمات حيث بت و هو صغير ، ويقول 64.
الحساب : وبالنظر الى مجموعة من السمات المستخرجة من وثيقة وأوزانها المقابلة ، ونحن نستخدم simhash لإنشاء و بت البصمات على النحو التالي. ونحافظ على الأبعاد و ناقلات الخامس ، كل واحد من أبعادها هو تهيئة إلى صفر. والميزة هي تجزئته الى طائرة من طراز اف بت قيمة البعثرة. هذه البتات و (ميزة فريدة من نوعها ل) الزيادة / إنقاص مكونات و للناقلات من وطأة هذه الميزة على النحو التالي : إذا كنت بت عشرة للتجزئة القيمة هي 1 ، ط العنصر الخامس عشر للبمقدار وزن تلك الميزة ، وإذا كان لي بت والعشرين للتجزئة القيمة هي 0 ، ط العنصر الخامس عشر من هو decremented من الوزن من تلك الميزة. عندما تكون جميع الميزات تم تجهيزها ، وبعض مكونات هي الخامس
إيجابية والبعض الآخر سلبي. علامات تحديد مكونات البتات المناظرة من البصمات النهائية.
النتائج التجريبية : بالنسبة لنظامنا ، استخدمنا جيم الأصلي + + تنفيذ simhash ، الذي قام به موسى شاريكار نفسه. بالتزامن مع تطوير نظامنا في عام 2004 | 2005 ، أجرى مونيكا Henzinger دراسة مقارنة أن
simhash مع برودر لوحة خشبية القائم على بصمات الأصابع. مقارنة ممتازة بين هذين النهجين يظهر في Henzinger.A ميزة كبيرة من خلال استخدام simhash القوباء المنطقية هو أنه يتطلب صغيرة الحجم نسبيا بصمات الأصابع. على سبيل المثال ، لوحة خشبية برودور مقرها بصمات تتطلب 24 بايت لكل البصمات (انها تتلخص في التحقق مما إذا كان اثنين أو أكثر من رابين بصمات من أصل ستة متطابقة). مع simhash ، 8B لصفحات الويب ، 64 - بصمات بت تكفي ، ونحن تجريبها عمليا في هذا x4.
خصائص simhash : لاحظ أن simhash يمتلك خاصيتين متضاربة : (أ) والبصمات وثيقة هو 'البعثرة" من معالمه ، و (ب) وثائق مماثلة قيم التجزئة مماثلة. الخاصية الأخيرة هي شاذة قد hfunctions. للحصول على التوضيح ، والنظر في وثيقتين التي تختلف في بايت واحد. ظائف ثم تجزئة التشفير مثل شا - 1 أو MD5 سوف بعثرة هاتين الوثيقتين (يعامل الجمل) إلى قسمين بعثرة مختلفة تماما القيم (المبالغة في المسافة بين قيم التجزئة ستكون كبيرة ). ومع ذلك ، لن simhash البعثرة لهم في بعثرة مماثلة القيم (المسافة المبالغة ستكون صغيرة).
في تصميم بالقرب من نظام الكشف عن التكرار على أساس simhash ، وقد واحد للتعامل مع غرابة من simhash الموصوفة أعلاه. استراتيجية استخدمناها هي على النحو التالي : نحن لدينا تصميم الخوارزميات افتراض أن ملكية ويحمل ، أي بصمات وتوزع بانتظام على نحو عشوائي ، ونحن تجريبيا قياس تأثير عدم التجانس الذي عرضته الملكية باء على قواعد البيانات الحقيقية. بعد تحويل الوثائق إلى بصمات simhash ، نحن نواجه مشكلة التصميم التالي : نظرا إلى 64 بت البصمات من الزحف مؤخرا صفحة على شبكة الإنترنت ، كيف يمكن لنا أن نكتشف بسرعة البصمات الأخرى التي تختلف في معظم 3 بت المواقف؟ علينا معالجة هذه المشكلة في القسم التالي.
3. المبالغة المسافة للمشكلة
التعريف : ونظرا لجمع بصمات الأصابع ، و بت واستعلام البصمات واو ، وتحديد ما إذا كان البصمات الموجودة يختلف عن واو في بت في معظم ك. (وفي الدفعة وضع صيغة للمشكلة المذكورة أعلاه ، لدينا مجموعة من البصمات الاستعلام
بدلا من واحد البصمات الاستعلام). كما مثيل ملموسة للproblem2 أعلاه ، والنظر في مجموعة من البصمات 8B 64 بت ، واحتلال 64GB. في
النسخة الإلكترونية من المشكلة ، لواو الاستعلام بصمات الأصابع ، لدينا للتأكد من ضمن عدد قليل من الالف ما إذا كان أي من القائمة 8B 64 - بصمات يختلف قليلا في واو في معظم ك = 3 بت المواقف. في إصدار دفعة من هذه المشكلة ، ونحن
لديهم مجموعة ، ويقول ، 1M بصمات الاستعلام (بدلا من الاستعلام الانفرادي البصمات واو) ويتعين علينا أن نحل المشكلة نفسها بالنسبة لجميع بصمات 1M الاستعلام في ما يقرب من 100 ثانية. هذا سيكون بمثابة مرت من 1B الاستعلامات في اليوم الواحد. دعونا استكشاف الفضاء من خلال النظر في تصميم اثنين simpleminded لكن النهج غير عملي. نهج واحد هو بناء الجدول فرز جميع البصمات الموجودة. نظرا واو ، علينا تحقيق مثل هذا الجدول مع كل الذين F0 المبالغة المسافة من واو هو في معظم k. العدد الإجمالي للتحقيقات باهظة كبير : ل64 بت وبصمات ك = 3 ، نحن بحاجة 64 3 فاي = 41664 المجسات. وبديل ذلك هو ما قبل احتساب جميع F0 أن بعض هذه البصمات الموجودة في معظم المبالغة المسافة ك بعيدا عن F0. في هذا النهج ، فإن العدد الإجمالي من قبل بصمات المحسوبة هي باهظة كبيرة : يمكن أن يكون ما يصل الى 41664 عدد مرات بصمات الأصابع. لدينا الآن وضع خوارزمية العملية التي تكمن في ما بين النهجين المبينة أعلاه : من الممكن حل المشكلة مع عدد صغير من المجسات وازدواجية في الجدول من بصمات بمعامل صغيرة.
الحدس : النظر في جدول فرزها من 2d بصمات الاصابع و بت حقا عشوائي. التركيز فقط على أهم بت د في الجدول. وهناك قائمة من د بت هذه الأرقام مبالغ ل\ تقريبا لمكافحة "بمعنى أن (أ) عدد غير قليل من 2d تركيبات بت الوجود ، و (ب) عدد قليل جدا من د تركيبات بت يتم تكرار. ومن ناحية أخرى ، على الأقل significant f d bits are \almost random". الآن اختيار d0 ان هذه jd0 دي جي عددا صحيحا الصغيرة. منذ الجدول يتم فرز وفحص واحد يكفي لتحديد جميع تطابق البصمات التي واو في d0 أهم بت المواقف. منذ jd0 دي جي صغير ، وعدد المباريات التي خاضها هذا ومن المتوقع أيضا أن تكون صغيرة. لكل مطابقة البصمات ، يمكننا بسهولة معرفة ما اذا كان ذلك يختلف في واو في معظم ك بت المواقف أم لا (هذه الخلافات ومن الطبيعي أن يكون مقصورا على الأقل و d0 بت كبيرة من المناصب). الإجراء الموصوف أعلاه يساعدنا على تحديد مكان وجود البصمات الموجودة التي تختلف عن واو ك بت في المناصب ، وكلها مقيدة ليكون من بين الأقل أهمية و d0 البتات F. هذا يهتم عدد لا بأس به من الحالات. لتغطية جميع الحالات ، يكفي لبناء عدد قليل من جداول فرز إضافية ، رسميا على النحو المبين في المقطع التالي.
3.1 خوارزمية للاستعلامات على الانترنت
علينا أن نبني الجداول ر : T1 ؛ T2 ؛ : : : ؛ تمتح. المرتبطة الجدول تي كميات هما : لبي صحيحا وقسم الصناعات السمكية التقليب على مدى بت و المناصب. الجدول تي هي التي شيدت من خلال تطبيق لقسم الصناعات السمكية التقليب كل البصمات الموجودة ؛ المجموعة الناتجة من مبدل و بصمات - بت يتم فرزها. كذلك ، كل جدول مضغوط (انظر x3.2) وتخزينها في الذاكرة الرئيسية من مجموعة من الآلات. نظرا البصمات واو وك صحيحا ،
نحن التحقيق في هذه الجداول متوازية :
الخطوة 1 : تحديد جميع بصمات مبدل في تي بي الذي أعلى قليلا من المناصب العليا في المباراة باي بت مواقف قسم الصناعات السمكية (واو).
الخطوة 2 : وبالنسبة لكل من بصمات مبدل التي تم تحديدها في الخطوة 1 ، تحقق مما إذا كانت تختلف عن قسم الصناعات السمكية (واو) في معظم مناصب في بت ك.
في الخطوة 1 ، والتعرف على البصمة الأولى في الجدول الذي رأس تي بي بت مواقف تتطابق مع أعلى باي بت مواقف قسم الصناعات السمكية (واو) الذي يمكن القيام به في سين (باي) واتخاذ خطوات من جانب بحث ثنائي. لو افترضنا أن كل البصمات كانت حقا بت تسلسل عشوائي ،
ابحث عن الاستيفاء ينكمش في وقت التشغيل إلى سين (سجل باي) خطوات في انتظار [52].
3.1.1 استكشاف معالم التصميم
دعونا نرى كيف مزيج معقول من طن وبي يمكن أن تكون ثابتة. لدينا اثنين من أهداف التصميم : (1) مجموعة صغيرة من التباديل لتجنب تضخم في متطلبات المساحة ، و (2) القيم الكبيرة لبي مختلفة لتجنب التدقيق الكثير من البصمات في الخطوة 2. أذكر بأن إذا كنا نسعى جميعا (مبدل) تطابق البصمات التي بت كبار بي لموقع معين (مبدل) البصمات ، فإننا نتوقع 2d بصمات بي في المباريات. المسلحة مع هذه الرؤية ، فإننا نقدم بعض الأمثلة لو 64 و ك = = 3. نقدم حلا التحليلية في x3.1.2.
مثال 3.1. تنظر و = 64 (64 - بصمات بت) ، و ك = 3 حتى شبه مكررة 'بصمات الأصابع تختلف في 3 بت في معظم المواقف. نفترض لدينا 8B = 234 البصمات الموجودة ، أي د = 34. وهنا أربعة تصاميم مختلفة ، كل تصميم يحتوي على مجموعة مختلفة من التباديل والقيم باي.
20 الجداول : سبليت 6 إلى 64 بت وجود كتل 11 ، 11 ، 11،11 ، 10 و 10 بت على التوالي. هناك 6 = 20 من اختيار 3 طرق للخروج من هذه الكتل 6. لكل خيار من هذا القبيل ، فاي التقليب يناظر صنع البتات الكذب في كتل اختيار البتات الرائدة (هناك عدة تبديلات من هذا القبيل ؛ نختار واحد منهم بشكل موحد على نحو عشوائي). قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 31 ؛ 32 أو 33. في المتوسط ، والتحقيق في معظم باسترداد 234 31 = 8 (مبدل) البصمات.
16 الجداول : سبليت 64 بت في 4 بنات ، ولكل منها 16 بت. هناك 41 = 4 طرق لاختيار 1 للخروج من هذه 4blocks. لكل خيار من هذا القبيل ، ونحن الفجوة البتات 48 المتبقية الى اربع كتل ذات 12 بت لكل منهما. هناك 4 = 4 طرق لاختيار 1 إلى 4 من هذه الكتل. والتقليب للحصول على طاولة يناظر بت في وضع لبنات في اختيار المناصب القيادية. قيمة باي هو 28 لجميع الكتل. في المتوسط ، وتحقيق باسترداد 234 28 = 64 (مبدل) البصمات.
10 الجداول : سبليت 64 بت في 5 بنات بعد 13 ، 13 ، 13 ، 13and 12 بت على التوالي. هناك 5 = 10 سبل اختيار 2 من هذه الكتل 5. لكل خيار من هذا القبيل ، فاي التقليب يناظر صنع البتات الكذب في كتل اختيار البتات الرائدة. قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 25 أو 26. في المتوسط ، والتحقيق في معظم باسترداد
234 25 = 512 (مبدل) البصمات.
4 الجداول : سبليت 64 بت في 4 بنات ، ولكل منها 16 بت. هناك 4 = 4 طرق لاختيار 1 إلى 4 من هذه الكتل. لكل خيار من هذا القبيل ، إذا التقليب corre -
sponds لجعل بت الكذب في كتل اختيار البتات الرائدة. قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 16. في المتوسط ،
التحقيق في معظم باسترداد 234 16 = 256K (مبدل) البصمات.
3.1.2 الأمثل لعدد من الجداول
3.1 سبيل المثال تبين أن العديد من خيارات التصميم difierent ممكنة لخيار ثابت و وk. زيادة عدد جداول الزيادات باي ، وبالتالي يقلل من الوقت الاستعلام. خفض عدد الجداول يقلل من متطلبات التخزين ، ولكن باي ، وبالتالي يقلل من الزيادات في الوقت الاستعلام. وثمة نهج معقولة لإصلاح التجارة اوفي بين الفضاء والزمن هو أن نطرح السؤال التالي : كيف العديد من الجداول التي نحتاج إذا كان لنا أن تحد من قيمة الحد الأدنى لبي
بعض المستمر؟ لعدد محدد من الوثائق 2d ، حجم و البصمات ، والحد الأقصى المسموح به المبالغة ك المسافة ، فإن الحل لهذه المشكلة العامة هي التي قدمها في التعبير التالي :
س (و ، ك ، (د) = 1 إذا د <فاي
حيث العاشر (و ، ك ، (د) يمثل عدد من الجداول المطلوبة ، وفاي عتبة تتحدد قيمة الحد الأدنى المسموح به قيمة باي : إذا كانت قيمة الحد الأدنى هو pmin ، فاي = د pmin. بالتناوب ، ويمكن للمرء أن يتساءل ما هي قيمة الحد الأقصى بي
وإذا كان لنا أن تحد من العدد الإجمالي لعدد الجداول لبعض. هذه المشكلة لا يمكن حلها بالمثل.
3.2 ضغط من بصمات الأصابع
ضغط يمكن تقليص أحجام الجداول الفردية. على سبيل المثال ، لأحجام الجدول 8B الوثائق والبصمات 64 بت يمكن تقليصه إلى النصف تقريبا أحجامها. البصيرة الرئيسي هو ان بصمات المتعاقبة حصة البتات د كبار في التوقع. علينا استغلال هذه الحقيقة على النحو التالي. ح السماح للدلالة على موقف معظم - 1 كبيرة بت في XOR اثنين من بصمات على التوالي. ح بالتالي يأخذ القيم
وبين 0 و 1 . للاطلاع على جدول معين ، ونحن أول من حساب توزيع القيم ح ثم احسب رمز Hufiman [37] على [0 ؛ و 1] لهذا التوزيع. المقبل ، ونحن اختيار باء المعلمة التي تدل على حجم الكتلة. القيمة النموذجية ل
باء سيكون 1024 بايت. كتلة مع وباء بايت 8B بت. علينا تفحص تسلسل فرزها من بصمات الأصابع (مبدل) في جدول وتعبئة كتل المتعاقبة على النحو التالي :
الخطوة 1 : والبصمات الأولى في كتلة تذكرت في مجملها. هذا يستهلك 8f بت. بعد ذلك ، هو الخطوة 2 المتكررة لبصمات المتعاقبة حتى كتلة هو الكامل ، أي أننا لا نستطيع القيام الخطوة 2 دون الحاجة 8B + 1 بت أو أكثر.
الخطوة 2 : احتساب XOR من البصمات الحالية مع البصمات السابقة. العثور على موقف mostsigni ficant 1 بت. إلحاق Hufiman رمز لهذا
بت لموقف الكتلة. ثم إلحاق البتات إلى اليمين من معظم - 1 كبيرة بت إلى كتلة.
مفتاح المرتبطة كتلة هو البصمة الأخيرة التي تم تذكرت في تلك الكتلة. عندما (مبدل) البصمات وصول ، واستيفاء البحث [52] على مفاتيح تساعدنا على معرفة أي عرقلة للضغط. يتوقف
قيمة باي ود ، وعلى توزيع بصمات (simhash يميل إلى كتلة من الوثائق المماثلة معا) ، ونحن أحيانا يكون لضغط كتل متعددة.
3.3 خوارزمية للاستعلامات الدفعية
كما هو مذكور في بداية x3 ، في إصدار دفعة من المبالغة المسافة مشكلة ، لدينا مجموعة من البصمات استعلام بدلا من البصمة الانفرادي الاستعلام. نفترض أن يتم تخزين بصمات الأصابع الموجودة في ملف وواو
أن الدفعي البصمات الاستعلام المخزنة في ملف Q. مع 8B 64 البصمات بت سوف واو ملف يحتلون 64GB. الضغط (انظر x3.2) تقليص حجم الملف إلى أقل من 32GB. وقال الدفعي من أجل من 1M بصمات الأصابع ، لذلك اسمحوا لنا أن نفترض أن الملف سؤال تحتل 8MB. في مجموعات ، على سبيل المثال ، الملفات واو وسؤال سوف تكون مخزنة في أي شيء مشترك ، وزعت ملف يسمى نظام إحصاءات مالية الحكومة ([29]. إحصاءات المالية الحكومية الملفات اقتحام 64MB قطع. كل قطعة في ثلاث نسخ (تقريبا) تم اختيارهم عشوائيا الآلات في كتلة ؛ يتم تخزين كل قطعة على شكل ملف في نظام الملفات المحلي.
باستخدام خريطة تقليل الإطار [24] ، ويمكن حساب عموما يمكن تقسيم مريح إلى مرحلتين. في المرحلة الأولى ، كما ان هناك العديد من المهام الحسابية على عدد من كتل من واو (في خريطة تقليل المصطلحات ، وهذه المهام هي
دعا المخططون). كل مهمة يحل مشكلة المبالغة المسافة أكثر من 64 ميغابايت في بعض قطعة من واو والملف بأكمله سؤال كمدخلات. وهناك قائمة من بصمات - مكررة اكتشفت بالقرب من مهمة ينتج عن انتاجها. في المرحلة الثانية ،
خفض خريطة يجمع جميع النواتج ، ويزيل التكرارات وتنتج فرز ملف واحد. نود أن نذكر بضع نقاط عن الكفاءة. أولا ، تسعى جاهدة للحد من خريطة تعظيم المكان ، أي أكثر المخططون هم في موقع مشترك مع الآلات التي تعقد في قطع الموكلة اليهم ، وهذا يجنب قطع الشحن عبر الشبكة. الثاني ، الملف سؤال يوضع في دليل إحصاءات مالية الحكومة مع عامل النسخ المتماثل أكبر بكثير من ثلاثة. ومن ثم نسخ ملف سؤال لمختلف المخططون لا اصبح يمثل عنق زجاجة (يرجى الاطلاع على ورقة إحصاءات مالية الحكومة لمناقشة هذه المسألة). كيف يمكننا حل مشكلة المبالغة المسافة مع ملف سؤال و64 ميغابايت في قطعة من واو الملف؟ علينا أن نبني الجداول ، على النحو المبين في x3.1 الموافق ملف سؤال (لاحظ أن للوضع على الانترنت ، والجداول بنيت لملف واو). لأن كل فرد الجدول مضغوط تحتل 8MB ، يمكننا بسهولة بناء مثل هذه الجداول 10 في الذاكرة الرئيسية ، دون أن تخشى من ضغط. بعد بناء على الجداول ، ونقوم بالبحث عن قطعة بالتسلسل ، الذين يحققون في الجداول عن كل البصمات التي ووجهت في المسح الضوئي.
3.3 العمل السابقة
وهناك نسخة معممة من المبالغة المسافة مشكلة كان اول من اقترح منسكي وبابيرت [44] : وبالنظر إلى مجموعة من السلاسل و ن بت (من اختيار عدو) ، وواو السلسلة ، والهدف من ذلك هو تحديد سلاسل في المجموعة التي تختلف من واو
في في معظم د بت المواقف. لا حلول فعالة معروفة لعامة ن ، و و د وكانت الدراسة النظرية التي بدأها وياو ياو [53]) ، الذي طور خوارزمية eficient لد = 1. والخوارزمية وتحسنت Brodal وGfiasienec [10] وBrodal وكريمو [11]. لالكبيرة د ، بعض التقدم هي التي أبلغت عنها غرين ، Parnas وياو [31] ، دوليف وآخرون [28] وارسلان وEfigeciofiglu [3].
مشكلتنا تختلف من واحدة موجهة من قبل المجتمع نظرية في جانبين. أولا ، علينا أن نفترض أن المدخل يتكون من بت السلاسل المختارة عشوائيا موحد (مع بعض المنظمات غير التوحيد الذي عرضته simhash التجزئة
وثائق مماثلة لقيم مماثلة). ثانيا ، نحن نتعامل مع عدد كبير جدا من بت الجمل التي لا تندرج في الذاكرة الرئيسية للجهاز واحد ، وهذا تحد لنا لخوارزميات بسيطة الذاكرة الخارجية التي تعمل بشكل جيد في تحديد توزيعها.
الشكل 1 : الدقة مقابل أذكر لمختلف k.
4. النتائج التجريبية
أي عمل سابق قام بدراسة للتجارة بين اوفي و ك و لغرض الكشف عن شبه مكررة صفحات الويب باستخدام simhash. لذا هدفنا الأول هو التأكد من simhash هو أسلوب معقول أخذ البصمات للكشف عن قرب مكررة في المقام الأول. نحن simhash الدراسة في x4.1. المقبل ، أردنا أن نتأكد من أن المجموعات التي تنتجها simhash لا تأثير لدينا من معادلات كبيرة. نحن نحلل التوزيعات من بصمات في x4.2. أخيرا ، علينا أن أتناول قضايا تشغل أوقات والتدرجية في x4.3.
4.1 اختيار معلمات
نحن جربت 234 = 8B simhash بصمات الأصابع. نحن ك متنوعة من 1 إلى 10. لكل ك ، ونحن العينة عشوائيا على عدد متساو من أزواج من البصمات التي يتم المبالغة في المسافة بالضبط k. نحن يدويا الموسومة كل زوج على النحو التالي : (1)
حقيقية إيجابية ؛ (2) إيجابية كاذبة ، أو (3) غير معروف. كنا من المبادئ التوجيهية [35] للبت فيها من الفئات الثلاث لوضع الزوج في | مختلفة اختلافا جذريا أزواج كاذبة إيجابية ؛ الصفحات التي تختلف قليلا ، إلا في مثل عدادات ، والإعلانات ، أو
الطوابع الزمنية صحيحا إيجابية ؛ ، والصفحات التي لا يمكن تقييمها ، على سبيل المثال ، بسبب محتوى بلغة غير الانكليزية ، أو لأن هناك حاجة إلى الدخول للوصول إلى صفحة ، ويوصف بانه غير معروف. الشكل 1 يرسم بدقة أذكر الرسم البياني لتجاربنا. الدقة وتعرف بأنها جزء من المبلغ عنها بالقرب من التكرارات
(على سبيل المثال ، وبعد المسافة المبالغة في معظم ك) التي هي ايجابيات صحيحا. أذكر يدل على جزء يسير من العدد الإجمالي للأزواج ، مكررة القريب (في العينة) أن تحصل على الكشف عن المسافة مع المبالغة في معظم k. الشكل 1 يبين بوضوح بين التجارة وأوفيس لقيم مختلفة من ك : قيمة منخفضة جدا يفتقد شبه مكررة (سلبيات واهية) ،
وقيمة عالية جدا السمات أزواج غير صحيح أنها مكررة ، بالقرب من (ايجابيات كاذبة). اختيار ك = 3 هو معقول لأن كلا من الدقة والتذكير بالقرب 0:75. لذلك ، لبصمات 64 بت ، معلنا عن وثيقتين شبه مكررة عند بصماتهم في تختلف في معظم 3 بت يعطي دقة عالية نسبيا.
4.2 توزيع بصمات الأصابع
نحن لدينا تصميم الخوارزمية على افتراض أن بصمات simhash. الوثائق عبر الإنترنت بصورة موحدة عشوائي. ومع ذلك ، يميل إلى simhash العنقودية وثائق مشابهة معا.
الرقم 2 (أ) يوضح هذه الظاهرة من الناحية الكمية.
في الشكل رقم 2 (أ) ، ونحن في مؤامرة لتوزيع بت مواقف رائدة 1 بت في XOR لبصمات الأصابع على التوالي. إذا كانوا حقا بصمات عشوائي ، من شأنه أن شهدنا التوزيع المتناسق الذي من شأنه أن تسوس أضعافا مضاعفة (من ص
قيمة من شأنها أن تقلل بمقدار النصف عن كل الزيادة / إنقاص من قيمة س). علما بأن النصف الأيمن من التوزيع في الواقع يسلك هذا السلوك. ومع ذلك ، فإن اليسار نصف التوزيع لا يسهو اوفي بسرعة ؛ هناك كثافة كبيرة. هذا هو واضح نتيجة لتجميع الوثائق ، وهناك أزواج من الوثائق التي simhash القيم تختلف حسب عدد البتات معتدلة لأنها تحتوي على محتوى مماثل. في الشكل 2 (ب) ، ونحن في مؤامرة لتوزيع 128 البصمات في دلاء ؛ حدود دلو يتم تعريفها من خلال تقسيم المساحة من 128 الى 2f بصمات متساوية الحجم فترات متجاورة. بصمات الأصابع هي أكثر أو أقل من زمنية متساوية. الغريب أن بعض المسامير وجود لها. هذه تحدث نتيجة لمجموعة متنوعة من الأسباب. بعض الأمثلة : (ط) عدة صفحات فارغة ، كل هذه لها قيمة simhash 0 ، (ب) هناك عدة حالات من \ ملف يتم العثور على "صفحات ، و (ج) العديد من المواقع تستخدم نفس لوحة الإعلانات البرمجيات ، والدخول صفحات
هذه المواقع هي مماثلة.
4.3 التدرجية
لوضع دفعة الخوارزمية ، ونسخة من ملف مضغوط سؤال يشغل تقريبا 32GB (بالمقارنة مع 64GB مضغوط). مع 200 المخططون ، يمكننا أن تفحص قطع بمعدل مجتمعة أكثر من 1GBps. حتى انتهاء حساب عموما في أقل من 100 ثانية. ضغط يلعب دورا مهما في تسريع نظرا لعدد محدد من المخططون ، والوقت الذي يستغرقه تقريبا بما يتناسب مع حجم الملف Q.
5. الكشف عن التكرار : دراسة استقصائية
مجموعة متنوعة من التقنيات التي تم تطويرها لتحديد أزواج من الوثائق التي هي "مشابهة" لبعضهما البعض ، وهذه تختلف من حيث الهدف والغاية ، والإحضار قيد النظر ، والميزة في المجموعة التي تم تحديدها في الوثيقة والتوقيع على مخطط للضغط على ميزة في المجموعة ، وفي هذا القسم ، القسم ، فإننا نقدم استعراضا mprehensive القريبة من أنظمة الكشف عن التكرار. وفي عملية تلخيص التصميم الشامل في الفضاء ، ونحن لدينا مشكلة تسليط الضوء على الكيفية يختلف
في وقت سابق العمل والسبب في ذلك مزايا وsimhash النهج القائم.
5.1 طبيعة الإحضار
بصفة عامة ، مكررة أنظمة الكشف وضعت لأربعة أنواع من المجموعات الوثيقة :
أ) مستندات ويب : الأدنى نظم مكررة وقد وضعت من أجل العثور على صفحات ذات الصلة [25] ، لاستخراج البيانات المهيكلة [2]) ، والشبكة العالمية لتحديد المرايا [6،7].
ب) الملفات في نظام الملفات : مانبر [42] تطوير خوارزميات لقرب الكشف عن التكرار للحد من لتخزين الملفات. وVenti ملف النظام [48]) ، وعرض النطاق الترددي منخفض ملف النظام [45] وقد دوافع مماثلة.
ج) البريد الإلكتروني : Kolcz وآخرون [40] تحديد شبه مكررة من أجل الكشف المزعج.
د) المجال - المجاميع الخاصة : مجموعات مختلفة قد وضعت بالقرب من أنظمة الكشف عن وثائق قانونية مكررة (انظر كونراد وSchriber [22]) ، المحركة المقاييس ، رويترز المواد الإخبارية ، وCiteseer البيانات.
عملنا يقع ضمن الفئة الأولى (مستندات ويب). نحن جربت 8B (صفحات هذا هو الطريق أحجام أكبر من جمع للعرقلة من الدراسات السابقة : على شبكة الإنترنت عن طريق تجميع برودور وآخرون [14] (30M عناوين المواقع في عام 1996) ، "ذات صلة" صفحات من قبل عميد الكلية وHenzinger [25] (180m في عناوين المواقع 1998) ، على شبكة الإنترنت عن طريق تجميع Haveliwala وآخرون [33] (35M عناوين المواقع في عام 2000).
5.2 إن نهاية الهدف : لماذا كشف مكررة؟
أ) ويب المرايا : للبحث على شبكة الإنترنت ، وتحديد الناجح لشبكة الإنترنت المرايا النتائج في أصغر الزحف / التخزين / تكاليف الفهرسة في ظل غياب شبه مكررة ، وأفضل النتائج من أعلى ك للاستعلامات البحث ، والتحسن في الصفحة ، عن طريق تخفيض رتبة
في هذه الدرجة من المواقع الناجمة عن قرب مكررة ، وتوفير التكاليف التي لا نطلب من الإنسان إلى رتبة المقيمون بالقرب من التكرارات. انظر بهارات وآخرون [6 ، 7] لإجراء مقارنة بين تقنيات التعرف على شبكة الإنترنت المرايا.
ب) للتقسيم "الوثائق ذات الصلة" الاستعلام : فعلى سبيل المثال ، وبالنظر إلى المادة الإخبارية ، على الويب سيرفر قد تكون مهتمة في العثور على المواد الإخبارية من مصادر أخرى أن
التبليغ عن نفس الحدث. مفهوم "التشابه" هو على مستوى عال (يمكن لأحد أن يقول أن فكرة التشابه هو "الدلالي" بدلا من "النحوية" ، مختلفة تماما
من فكرة التكرار أو شبه مكررة التي نوقشت أعلاه. نهج واحد هو استخدام خفية الفهرسة الدلالي [26]. ثمة نهج آخر هو استغلال بنية الربط بين شبكة الويب (انظر دين وHenzinger [25] الذين يبنون عليها كلينبيرج فكرة المحاور والسلطات [39]). المضي قدما على هذا المنوال ، كومار وآخرون [41] قد اقترحت اكتشاف \ المجتمعات المحلية على الانترنت "من خلال تحديد كثافة شبه ثنائية الرسوم البيانية للشبكة الإنترنت الرسم البياني.
ج) واستخراج البيانات : نظرا معتدلة الحجم مجموعة من صفحات مماثلة ، ويقول في استعراض www.imdb.com ، والهدف هو التعرف على المخطط / اليومي الكامنة وراء جمع حتى نتمكن من استخراج وتصنيف المعلومات المفيدة من هذه الصفحات. انظر جوشي وآخرون [38] (والإشارات الواردة فيه) للتقنية التي كتل صفحات على شبكة الإنترنت على أساس التشابه الهيكلي. انظر Arasu وجارسيا مولينا ([2] لأسلوب آخر أن يحدد القوالب الكامنة صفحات مع هيكل مماثل. نلاحظ أيضا أن البيانات الوصفية (تم تجاهل السمات أتش تي أم أل) في (أ) و (ب) أعلاه.
د) الإنتحال : وبالنظر الى مجموعة من التقارير والمقالات أو دفوع الاحالة (وكلاهما مصدر رمز وتقارير نصية) ، والهدف من ذلك هو تحديد أزواج من الوثائق التي يبدو انها اقترضت من بعضهما البعض بشكل كبير. بالنسبة لبعض العمل في وقت مبكر في هذا المجال ، انظر المواد التي يقوم بها بيكر [4 ، 5] ، ونظام مؤتمرات الأطراف عن طريق برين وآخرون ([8] واحتيال من قبل شيفاكومار وجارسيا مولينا ([51].
ه) الكشف المزعج : ونظرا لعدد كبير من تلقى مؤخرا رسائل البريد الإلكتروني ، والهدف من ذلك هو التعرف على الرسائل الاقتحامية قبل إيداع البريد الإلكتروني في علب البريد 'المستلمين. أل
الافتراض هو ان يحتفظ مماثلة إرسال رسائل البريد الإلكتروني بشكل جماعي ، مع تغير طفيف في الجسم من هذه الرسائل الإلكترونية. انظر Kolcz وآخرون [40] ، الذين نبني على عمل سابق لشودري وآخرون [20].
و) التكرارات في المجال المجاميع محددة : إن الهدف هو تحديد شبه مكررة الناشئة عن تنقيحات ، مودى - fications ، أو الاندماج نسخ من الوثائق ، وما إلى ذلك (انظر كونراد وSchriber [22]) لدراسة الحالة التي تنطوي على وثائق قانونية وطيد. مانبر [42] بدأت تحقيقا في التعرف على ملفات مماثلة في نظام الملفات. لدينا شبه مكررة يحسن نظام الكشف عن الزحف على شبكة الإنترنت ، وهو هدف لا يشارك مع أي من النظم الموصوفة أعلاه.
5.3 ميزة تعيين لكل وثيقة
والألواح) من محتوى الصفحة : النظر في تسلسل الكلمات في المستند. وحصى هو تجزئة القيمة لك جرام وهو شبه تسلسل ك الكلمات المتعاقبة. مجموعة من ألواح تشكل مجموعة من الميزات وثيقة. اختيار ك هو crucial3. ويمكن من علامات الرقم ك المتعاقبة غرام بكفاءة حسابها باستخدام تقنية البصمات رابين [49]. مانبر [42] خلق الواح على الحروف. نظام مؤتمرات الأطراف عن طريق برين وآخرون ([8] الجمل المستخدمة لإنشاء القوباء المنطقية. برودر وآخرون [12 ، 14] خلق الواح أكثر من الكلمات. العدد الإجمالي للالواح في الوثيقة بوضوح كبير. ولذلك ، صغيرة الحجم يتم حسابها التوقيع على مجموعة من الألواح ، كما هو موضح في القسم الفرعي التالي.
ب) من الوثيقة ناقلات محتوى الصفحة : وعلى النقيض من القوباء المنطقية ، يمكن وصف وثيقة تكون عن طريق نشر تقنيات الأشعة تحت الحمراء التقليدية. والفكرة هي لحساب وثيقة "متجه" من قضية قابلة للطي ، ووقف نقل الأمتعة الكلمة ، ووقف ، والحوسبة الأجل الترددات وأخيرا ، وتزن كل مصطلح من ترددها معكوس الوثيقة (الجيش الاسرائيلي). التالي ، نظرا ثيقتين ، أ \ التدبير "التشابه يتم تعريفها. هواد وزوبل [36] القول بأن جيب التمام التقليدية لقياس التشابه غير كافية للكشف عن ازدواجية القريب. انهم تحديد وتقييم مجموعة متنوعة
of similarity measures (but they do not develop any signature-scheme to compress the document-vectors). A different approach is taken by Chowdhury et al [20] who compute a lexicon (the union of all terms existing in the collection of documents). The lexicon is then pruned (a variety of schemes are studied by the authors). Each document-vector is then modified by removing terms that have been pruned from the lexicon. The resulting document-vectors are fingerprinted. Two documents are said to be near-duplicates ifi their fingerprints match. This scheme is rather brittle for near duplicate detection { a follow-up paper [40] ameliorates the problem by constructing multiple lexicons (these are random subsets of the original lexicon). Now multiple fingerprints per document are computed and two documents are said to be duplicates ifi most of their fingerprints match. An issue to keep in mind when dealing with document vectors
is that the IDF of any term is global information which changes as the collection changes.
c) Connectivity information: For the purpose of finding \related pages", Dean and Henzinger [25] exploited the linkage structure of the web. The premise is that similar pages would have several incoming links in common. Haveliwala et al [34] point out that the quality of duplicate detection is poor for pages with very few incoming links. This can be ameliorated by taking anchor text and anchor windows into account.
d) Anchor text, anchor window: Similar documents should have similar anchor text. Haveliwala et al [34] study the impact of anchor-text and anchor-windows,
where an anchor-window is the text surrounding the anchor text, for example, the paragraph it belongs to. The words in the anchor text/window are folded into the
document-vector itself. A weighing function that diminishes the weight of words that are farther away from the anchor text is shown to work well.
e) Phrases: Cooper et al [23] propose identification of phrases using a phrase-detection system and computing a document-vector that includes phrases as terms. They have tested their ideas on a very small collection (tens of thousands). The idea of using phrases also appears in the work of Hammouda and Kamel [32] who build sophisticated indexing techniques for web-clustering.
We chose to work with the document vector model; simhash converts document vectors into fingerprints. Augmenting the document vector by other signals (anchor text and connectivity information, for example) might improve the quality
of our system. We leave these possibilities as future work.
5.4 Signature schemes
a) Mod-p shingles: A simple compression scheme for shingle based fingerprints is to retain only those fingerprints whose remainder modulus p is 0, for a sufficiently large value of p. The number of fingerprints retained is variable sized. Moreover, it is important to ignore commonly occurring fingerprints since they contribute to false-matches. A drawback of this scheme is that the distance between
successive shingles that are retained, is unbounded. This problem has been ameliorated by the “winnowing" technique by Schliemer et al [50]. Hoad and Zobel [36] compare a variety of other ideas for pruning the set of shingle-based fingerprints.
b) Min-hash for Jaccard similarity of sets: For two sets A and B, let the measure of similarity be jA\Bj jA[Bj , also known as the Jaccard measure. Interestingly, it is possible to devise a simple signature scheme such that the probability that the signatures of A and B match is exactly the Jaccard measure [13, 14]. Several experimental studies have tested the eficacy of min-hash in various settings (Cohen et al [21] for associationrule mining, Chen et al [18] for selectivity estimation of boolean queries, Gionis et al [30] for indexing set-value predicates and Haveliwala [33] for web-clustering).
c) Signatures/fingerprints over IR-based document vectors: Charikar's simhash [17] is a fingerprinting technique for compressing document vectors such that two
fingerprints are similar ifi the document vectors are similar. Another technique for computing signatures over document-vectors is the I-Match algorithm by Chowdhury et al [20] that we described earlier. An improved I-Match algorithm appears in [40]. These algorithms have been tested on small document- collections (of the order of tens of thousands) and appear fairly brittle.
d) Checksums: Pugh and Henzinger's patent [47] contains the following idea: we divide words in a document into k buckets (by hashing the words, for example), and compute a checksum of each bucket. The set of checksums of two similar documents should agree for most of the buckets. We chose to work with simhash primarily because it allows us to work with small-sized fingerprints.
6. FUTURE EXPLORATIONS
Using simhash is a good first step for solving the near duplicate detection problem. Many other ideas hold promise of improving the quality of near-duplicate detection, and/or making the system more efficient. We list a few:
A. Document size has been shown to play an important role in near-duplicate detection in certain contexts. For example, in Conrad and Schriber [22], two legal documents are deemed to be duplicates ifi they have 80% overlap in terminology and fi20% variation in length (these were arrived at by consulting the Library Advisory Board who are trained in the field of Library Science). ربما
we should devise different techniques for small and large documents. Or perhaps, we should reserve a few bits of the 64-bit fingerprint to hold document length. B. Is it possible to prune the space of existing fingerprints by asserting that certain documents never have duplicates?
C. Could we categorize web-pages into different categories (for example, by language type), and search for near duplicates only within the relevant categories.
D. Is it feasible to devise algorithms for detecting portions of web-pages that contains ads or timestamps? Perhaps such portions can be automatically removed so that exact checksums over the remaining page suffice for duplicate
الكشف.
E. How sensitive is simhash-based near-duplicate detection to changes in the algorithm for feature-selection and assignment of weights to features?
F. How relevant are simhash-based techniques for focused crawlers [27, 43, 46] which are quite likely to crawl web pages that are similar to each other.
G. Can near-duplicate detection algorithms be developed further to facilitate clustering of documents?
7.Summary
Most algorithms for near-duplicate detection run in batchmode over the entire collection of documents. For web crawling, an online algorithm is necessary because the decision to ignore the hyper-links in a recently-crawled page has
to be made quickly. The scale of the problem (billions of documents) limits us to small-sized fingerprints. Luckily, Charikar's simhash technique with 64-bit fingerprints seems to work well in practice for a repository of 8B web pages.
8. المراجع
[1] A. Arasu, J. Cho, H. Garcia-Molina, A. Paepcke, and S. Raghavan. Searching the web. ACM Transactions on Internet Technology, 1(1):2{43, 2001.
[2] A. Arasu and H. Garcia-Molina. Extracting structured data from web pages. In Proc. ACM SIGMOD 2003, pages 337{348, 2003.
[3] A. N. Arslan and ? O. Efigeciofiglu. Dictionary look-up within small edit distance. In Proc. 8th Annual Intl. Computing and Combinatorics Conference
(COCOON'02), pages 127{136, 2002.
[4] B. S. Baker. A theory of parameterized pattern matching algorithms and applications. In Proc. 25th Annual Symposium on Theory of Computing (STOC
1993), pages 71{80, 1993.
[5] B. S. Baker. On finding duplication and near-duplication in large software systems. In Proc. 2nd Working Conference on Reverse Engineering, page 86, 1995.
[6] K. Bharat and A. Broder. Mirror, mirror on the Web: A study of hst pairs with replicated content. In Proc
الاشتراك في:
الرسائل (Atom)