كشف الأدنى التكرارات
لويب الزحف
الملخص
بالقرب من وثائق على شبكة الإنترنت مكررة وفيرة. اثنين من هذه الوثائق تختلف عن بعضها البعض في جزء صغير جدا التي تعرض الإعلانات ، وعلى سبيل المثال. وهذه الاختلافات لا تمت بصلة للبحث على شبكة الإنترنت. وحتى نوعية الزيادات زاحف الويب إذا كان يمكن تقييم ما إذا كان حديثا زحف صفحة الويب هي شبه مكررة من قبل زحف صفحة الويب أم لا. في سياق وضع بالقرب من نظام الكشف عن التكرار لعدة مليارات صفحة مستودع ، ونحن جعل اثنين من المساهمات البحثية. أولا ، علينا أن نبرهن على شاريكار وتقنية البصمات هي المناسبة لتحقيق هذا الهدف. ثانيا ، نحن في عرض تقنية حاسوبية لتحديد البصمات الموجودة ، و التي تختلف قليلا من البصمات في المقدمة في معظم ك بت المواقف ، لk. الصغيرة لدينا التقنية مفيدة لكلا الاستعلامات على شبكة الإنترنت (بصمات الأصابع واحد) والاستفسارات الدفعي (بصمات متعددة). التقييم التجريبي على بيانات حقيقية ويؤكد التطبيق العملي لدينا تصميم.
1. مقدمة
الزحف على شبكة الإنترنت هو جزء لا يتجزأ من البنية التحتية لمحركات البحث. الزواحف عام الزحف وثائق وصلات ينتمون إلى مجموعة متنوعة من المواضيع ، في حين ركزت بعض الزواحف استخدام المعرفة المتخصصة للحد من الزحف إلى صفحات تتعلق بمواضيع محددة. من أجل الزحف على شبكة الإنترنت ، مثل قضايا نضارة وكفاءة استخدام الموارد قد سبق تناولها. ومع ذلك ، فإن مشكلة القضاء على بالقرب من وثائق على شبكة الإنترنت مكررة في الزحف عامة لم تحظ بالاهتمام.
المستندات التي يتم نسخ طبق الأصل من بعضها البعض (بسبب المتطابق والانتحال) من السهل تحديد معيار الاختيار من تقنيات التلخيص. والمشكلة الأصعب هي تحديد لمستندات - مكررة القريب. اثنين من هذه الوثائق متطابقة من حيث المحتوى ولكنها تختلف في جزء صغير من هذه الوثيقة ، مثل الإعلانات ، والعدادات والطوابع الزمنية. هذه الاختلافات لا تمت بصلة للبحث على شبكة الإنترنت. حتى إذا كان حديثا زحف Pduplicate الصفحة يعتبر شبه مكررة من بالفعل الزحف الصفحة ف ، المحرك الزحف ينبغي تجاهل Pduplicate وصلاتها خارج يذهب بأكمله (الحدس يوحي بأن هذه ربما تكون شبه مكررة من الصفحات للوصول من ف ). القضاء على شبه مكررة يحفظ النطاق الترددي للشبكة ، ويقلل من تكاليف التخزين ، وتحسن من نوعية فهارس البحث. كما أنه يقلل العبء الملقى على عاتق المضيف البعيد هي التي تخدم صفحات الويب من هذا القبيل. وهناك نظام للكشف عن صفحات مكررة - بالقرب يواجه عددا من التحديات. أولا وقبل كل شيء هو مسألة الحجم : محركات البحث مؤشر المليارات من صفحات الويب ، وهذا يرقى الى قاعدة بيانات متعددة تيرابايت. ثانيا ، ينبغي أن محرك الزحف تكون قادرة على الزحف المليارات من صفحات الويب في اليوم الواحد. لذلك كان القرار لإحياء حديثا زحف الصفحة كما شبه مكررة من صفحة موجودة ينبغي أن يكون سريعا. وأخيرا ، ينبغي للنظام واستخدام آلات قليلة قدر الإمكان. هنا نحن نعتبر ما يلي :
A. نحن يبين أن شاريكار في simhash عمليا مفيدا لتحديد شبه مكررة في وثائق الشبكة تنتمي إلى عدة مليارات صفحة مستودع. simhash هو تقنية البصمات التي تتمتع الممتلكات التي بصمات شبه مكررة تختلف في عدد صغير من مواقف بعض الشيء. علينا التحقق من أن تجريبيا لمستودع لل8B صفحة الويب ، 64 بت وبصمات simhash ك = 3 معقولة (القسم 2).
B. وتطوير تقنية من أجل حل مشكلة المبالغة المسافة : في جمع بصمات الأصابع ، و بت وسرعة وجميع البصمات التي تختلف عن بصمة الاصبع على مواقع معينة في معظم ك بت ، حيث ك عدد صحيح الصغيرة. لدينا التقنية مفيدة لكلا الاستعلامات على شبكة الإنترنت (بصمات الأصابع واحد) والاستفسارات الدفعي (بصمات متعددة).
C. ونحن حاليا مسحا للخوارزميات وتقنيات الكشف عن التكرار (القسم 5).
2. أخذ البصمات مع SIMHASH
شاريكار في simhash هو الحد من أبعاد تقنية. وخرائط ثلاثية الأبعاد عالية ناقلات صغيرة الحجم لبصمات الأصابع. يتم تطبيقه على صفحات الشبكة العالمية على النحو التالي : نحن أول من تحويل صفحات الانترنت إلى مجموعة من الميزات ، كل ميزة الموسومة
بكل ثقلها. ميزات يتم حسابها باستخدام تقنيات الأشعة تحت الحمراء قياسية مثل tokenization لطي القضية ، ووقف إزالة كلمة ، ووقف وكشف جملة. مجموعة من الميزات مرجح يشكل رفيع متجه الابعاد ، مع البعد واحد لكل ميزة فريدة من نوعها في جميع الوثائق مجتمعة. مع simhash ، يمكننا أن نحول هذه رفيع متجه الى الابعاد و - البصمات حيث بت و هو صغير ، ويقول 64.
الحساب : وبالنظر الى مجموعة من السمات المستخرجة من وثيقة وأوزانها المقابلة ، ونحن نستخدم simhash لإنشاء و بت البصمات على النحو التالي. ونحافظ على الأبعاد و ناقلات الخامس ، كل واحد من أبعادها هو تهيئة إلى صفر. والميزة هي تجزئته الى طائرة من طراز اف بت قيمة البعثرة. هذه البتات و (ميزة فريدة من نوعها ل) الزيادة / إنقاص مكونات و للناقلات من وطأة هذه الميزة على النحو التالي : إذا كنت بت عشرة للتجزئة القيمة هي 1 ، ط العنصر الخامس عشر للبمقدار وزن تلك الميزة ، وإذا كان لي بت والعشرين للتجزئة القيمة هي 0 ، ط العنصر الخامس عشر من هو decremented من الوزن من تلك الميزة. عندما تكون جميع الميزات تم تجهيزها ، وبعض مكونات هي الخامس
إيجابية والبعض الآخر سلبي. علامات تحديد مكونات البتات المناظرة من البصمات النهائية.
النتائج التجريبية : بالنسبة لنظامنا ، استخدمنا جيم الأصلي + + تنفيذ simhash ، الذي قام به موسى شاريكار نفسه. بالتزامن مع تطوير نظامنا في عام 2004 | 2005 ، أجرى مونيكا Henzinger دراسة مقارنة أن
simhash مع برودر لوحة خشبية القائم على بصمات الأصابع. مقارنة ممتازة بين هذين النهجين يظهر في Henzinger.A ميزة كبيرة من خلال استخدام simhash القوباء المنطقية هو أنه يتطلب صغيرة الحجم نسبيا بصمات الأصابع. على سبيل المثال ، لوحة خشبية برودور مقرها بصمات تتطلب 24 بايت لكل البصمات (انها تتلخص في التحقق مما إذا كان اثنين أو أكثر من رابين بصمات من أصل ستة متطابقة). مع simhash ، 8B لصفحات الويب ، 64 - بصمات بت تكفي ، ونحن تجريبها عمليا في هذا x4.
خصائص simhash : لاحظ أن simhash يمتلك خاصيتين متضاربة : (أ) والبصمات وثيقة هو 'البعثرة" من معالمه ، و (ب) وثائق مماثلة قيم التجزئة مماثلة. الخاصية الأخيرة هي شاذة قد hfunctions. للحصول على التوضيح ، والنظر في وثيقتين التي تختلف في بايت واحد. ظائف ثم تجزئة التشفير مثل شا - 1 أو MD5 سوف بعثرة هاتين الوثيقتين (يعامل الجمل) إلى قسمين بعثرة مختلفة تماما القيم (المبالغة في المسافة بين قيم التجزئة ستكون كبيرة ). ومع ذلك ، لن simhash البعثرة لهم في بعثرة مماثلة القيم (المسافة المبالغة ستكون صغيرة).
في تصميم بالقرب من نظام الكشف عن التكرار على أساس simhash ، وقد واحد للتعامل مع غرابة من simhash الموصوفة أعلاه. استراتيجية استخدمناها هي على النحو التالي : نحن لدينا تصميم الخوارزميات افتراض أن ملكية ويحمل ، أي بصمات وتوزع بانتظام على نحو عشوائي ، ونحن تجريبيا قياس تأثير عدم التجانس الذي عرضته الملكية باء على قواعد البيانات الحقيقية. بعد تحويل الوثائق إلى بصمات simhash ، نحن نواجه مشكلة التصميم التالي : نظرا إلى 64 بت البصمات من الزحف مؤخرا صفحة على شبكة الإنترنت ، كيف يمكن لنا أن نكتشف بسرعة البصمات الأخرى التي تختلف في معظم 3 بت المواقف؟ علينا معالجة هذه المشكلة في القسم التالي.
3. المبالغة المسافة للمشكلة
التعريف : ونظرا لجمع بصمات الأصابع ، و بت واستعلام البصمات واو ، وتحديد ما إذا كان البصمات الموجودة يختلف عن واو في بت في معظم ك. (وفي الدفعة وضع صيغة للمشكلة المذكورة أعلاه ، لدينا مجموعة من البصمات الاستعلام
بدلا من واحد البصمات الاستعلام). كما مثيل ملموسة للproblem2 أعلاه ، والنظر في مجموعة من البصمات 8B 64 بت ، واحتلال 64GB. في
النسخة الإلكترونية من المشكلة ، لواو الاستعلام بصمات الأصابع ، لدينا للتأكد من ضمن عدد قليل من الالف ما إذا كان أي من القائمة 8B 64 - بصمات يختلف قليلا في واو في معظم ك = 3 بت المواقف. في إصدار دفعة من هذه المشكلة ، ونحن
لديهم مجموعة ، ويقول ، 1M بصمات الاستعلام (بدلا من الاستعلام الانفرادي البصمات واو) ويتعين علينا أن نحل المشكلة نفسها بالنسبة لجميع بصمات 1M الاستعلام في ما يقرب من 100 ثانية. هذا سيكون بمثابة مرت من 1B الاستعلامات في اليوم الواحد. دعونا استكشاف الفضاء من خلال النظر في تصميم اثنين simpleminded لكن النهج غير عملي. نهج واحد هو بناء الجدول فرز جميع البصمات الموجودة. نظرا واو ، علينا تحقيق مثل هذا الجدول مع كل الذين F0 المبالغة المسافة من واو هو في معظم k. العدد الإجمالي للتحقيقات باهظة كبير : ل64 بت وبصمات ك = 3 ، نحن بحاجة 64 3 فاي = 41664 المجسات. وبديل ذلك هو ما قبل احتساب جميع F0 أن بعض هذه البصمات الموجودة في معظم المبالغة المسافة ك بعيدا عن F0. في هذا النهج ، فإن العدد الإجمالي من قبل بصمات المحسوبة هي باهظة كبيرة : يمكن أن يكون ما يصل الى 41664 عدد مرات بصمات الأصابع. لدينا الآن وضع خوارزمية العملية التي تكمن في ما بين النهجين المبينة أعلاه : من الممكن حل المشكلة مع عدد صغير من المجسات وازدواجية في الجدول من بصمات بمعامل صغيرة.
الحدس : النظر في جدول فرزها من 2d بصمات الاصابع و بت حقا عشوائي. التركيز فقط على أهم بت د في الجدول. وهناك قائمة من د بت هذه الأرقام مبالغ ل\ تقريبا لمكافحة "بمعنى أن (أ) عدد غير قليل من 2d تركيبات بت الوجود ، و (ب) عدد قليل جدا من د تركيبات بت يتم تكرار. ومن ناحية أخرى ، على الأقل significant f d bits are \almost random". الآن اختيار d0 ان هذه jd0 دي جي عددا صحيحا الصغيرة. منذ الجدول يتم فرز وفحص واحد يكفي لتحديد جميع تطابق البصمات التي واو في d0 أهم بت المواقف. منذ jd0 دي جي صغير ، وعدد المباريات التي خاضها هذا ومن المتوقع أيضا أن تكون صغيرة. لكل مطابقة البصمات ، يمكننا بسهولة معرفة ما اذا كان ذلك يختلف في واو في معظم ك بت المواقف أم لا (هذه الخلافات ومن الطبيعي أن يكون مقصورا على الأقل و d0 بت كبيرة من المناصب). الإجراء الموصوف أعلاه يساعدنا على تحديد مكان وجود البصمات الموجودة التي تختلف عن واو ك بت في المناصب ، وكلها مقيدة ليكون من بين الأقل أهمية و d0 البتات F. هذا يهتم عدد لا بأس به من الحالات. لتغطية جميع الحالات ، يكفي لبناء عدد قليل من جداول فرز إضافية ، رسميا على النحو المبين في المقطع التالي.
3.1 خوارزمية للاستعلامات على الانترنت
علينا أن نبني الجداول ر : T1 ؛ T2 ؛ : : : ؛ تمتح. المرتبطة الجدول تي كميات هما : لبي صحيحا وقسم الصناعات السمكية التقليب على مدى بت و المناصب. الجدول تي هي التي شيدت من خلال تطبيق لقسم الصناعات السمكية التقليب كل البصمات الموجودة ؛ المجموعة الناتجة من مبدل و بصمات - بت يتم فرزها. كذلك ، كل جدول مضغوط (انظر x3.2) وتخزينها في الذاكرة الرئيسية من مجموعة من الآلات. نظرا البصمات واو وك صحيحا ،
نحن التحقيق في هذه الجداول متوازية :
الخطوة 1 : تحديد جميع بصمات مبدل في تي بي الذي أعلى قليلا من المناصب العليا في المباراة باي بت مواقف قسم الصناعات السمكية (واو).
الخطوة 2 : وبالنسبة لكل من بصمات مبدل التي تم تحديدها في الخطوة 1 ، تحقق مما إذا كانت تختلف عن قسم الصناعات السمكية (واو) في معظم مناصب في بت ك.
في الخطوة 1 ، والتعرف على البصمة الأولى في الجدول الذي رأس تي بي بت مواقف تتطابق مع أعلى باي بت مواقف قسم الصناعات السمكية (واو) الذي يمكن القيام به في سين (باي) واتخاذ خطوات من جانب بحث ثنائي. لو افترضنا أن كل البصمات كانت حقا بت تسلسل عشوائي ،
ابحث عن الاستيفاء ينكمش في وقت التشغيل إلى سين (سجل باي) خطوات في انتظار [52].
3.1.1 استكشاف معالم التصميم
دعونا نرى كيف مزيج معقول من طن وبي يمكن أن تكون ثابتة. لدينا اثنين من أهداف التصميم : (1) مجموعة صغيرة من التباديل لتجنب تضخم في متطلبات المساحة ، و (2) القيم الكبيرة لبي مختلفة لتجنب التدقيق الكثير من البصمات في الخطوة 2. أذكر بأن إذا كنا نسعى جميعا (مبدل) تطابق البصمات التي بت كبار بي لموقع معين (مبدل) البصمات ، فإننا نتوقع 2d بصمات بي في المباريات. المسلحة مع هذه الرؤية ، فإننا نقدم بعض الأمثلة لو 64 و ك = = 3. نقدم حلا التحليلية في x3.1.2.
مثال 3.1. تنظر و = 64 (64 - بصمات بت) ، و ك = 3 حتى شبه مكررة 'بصمات الأصابع تختلف في 3 بت في معظم المواقف. نفترض لدينا 8B = 234 البصمات الموجودة ، أي د = 34. وهنا أربعة تصاميم مختلفة ، كل تصميم يحتوي على مجموعة مختلفة من التباديل والقيم باي.
20 الجداول : سبليت 6 إلى 64 بت وجود كتل 11 ، 11 ، 11،11 ، 10 و 10 بت على التوالي. هناك 6 = 20 من اختيار 3 طرق للخروج من هذه الكتل 6. لكل خيار من هذا القبيل ، فاي التقليب يناظر صنع البتات الكذب في كتل اختيار البتات الرائدة (هناك عدة تبديلات من هذا القبيل ؛ نختار واحد منهم بشكل موحد على نحو عشوائي). قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 31 ؛ 32 أو 33. في المتوسط ، والتحقيق في معظم باسترداد 234 31 = 8 (مبدل) البصمات.
16 الجداول : سبليت 64 بت في 4 بنات ، ولكل منها 16 بت. هناك 41 = 4 طرق لاختيار 1 للخروج من هذه 4blocks. لكل خيار من هذا القبيل ، ونحن الفجوة البتات 48 المتبقية الى اربع كتل ذات 12 بت لكل منهما. هناك 4 = 4 طرق لاختيار 1 إلى 4 من هذه الكتل. والتقليب للحصول على طاولة يناظر بت في وضع لبنات في اختيار المناصب القيادية. قيمة باي هو 28 لجميع الكتل. في المتوسط ، وتحقيق باسترداد 234 28 = 64 (مبدل) البصمات.
10 الجداول : سبليت 64 بت في 5 بنات بعد 13 ، 13 ، 13 ، 13and 12 بت على التوالي. هناك 5 = 10 سبل اختيار 2 من هذه الكتل 5. لكل خيار من هذا القبيل ، فاي التقليب يناظر صنع البتات الكذب في كتل اختيار البتات الرائدة. قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 25 أو 26. في المتوسط ، والتحقيق في معظم باسترداد
234 25 = 512 (مبدل) البصمات.
4 الجداول : سبليت 64 بت في 4 بنات ، ولكل منها 16 بت. هناك 4 = 4 طرق لاختيار 1 إلى 4 من هذه الكتل. لكل خيار من هذا القبيل ، إذا التقليب corre -
sponds لجعل بت الكذب في كتل اختيار البتات الرائدة. قيمة باي هو مجموع عدد البتات في القطع المختارة. هكذا باي = 16. في المتوسط ،
التحقيق في معظم باسترداد 234 16 = 256K (مبدل) البصمات.
3.1.2 الأمثل لعدد من الجداول
3.1 سبيل المثال تبين أن العديد من خيارات التصميم difierent ممكنة لخيار ثابت و وk. زيادة عدد جداول الزيادات باي ، وبالتالي يقلل من الوقت الاستعلام. خفض عدد الجداول يقلل من متطلبات التخزين ، ولكن باي ، وبالتالي يقلل من الزيادات في الوقت الاستعلام. وثمة نهج معقولة لإصلاح التجارة اوفي بين الفضاء والزمن هو أن نطرح السؤال التالي : كيف العديد من الجداول التي نحتاج إذا كان لنا أن تحد من قيمة الحد الأدنى لبي
بعض المستمر؟ لعدد محدد من الوثائق 2d ، حجم و البصمات ، والحد الأقصى المسموح به المبالغة ك المسافة ، فإن الحل لهذه المشكلة العامة هي التي قدمها في التعبير التالي :
س (و ، ك ، (د) = 1 إذا د <فاي
حيث العاشر (و ، ك ، (د) يمثل عدد من الجداول المطلوبة ، وفاي عتبة تتحدد قيمة الحد الأدنى المسموح به قيمة باي : إذا كانت قيمة الحد الأدنى هو pmin ، فاي = د pmin. بالتناوب ، ويمكن للمرء أن يتساءل ما هي قيمة الحد الأقصى بي
وإذا كان لنا أن تحد من العدد الإجمالي لعدد الجداول لبعض. هذه المشكلة لا يمكن حلها بالمثل.
3.2 ضغط من بصمات الأصابع
ضغط يمكن تقليص أحجام الجداول الفردية. على سبيل المثال ، لأحجام الجدول 8B الوثائق والبصمات 64 بت يمكن تقليصه إلى النصف تقريبا أحجامها. البصيرة الرئيسي هو ان بصمات المتعاقبة حصة البتات د كبار في التوقع. علينا استغلال هذه الحقيقة على النحو التالي. ح السماح للدلالة على موقف معظم - 1 كبيرة بت في XOR اثنين من بصمات على التوالي. ح بالتالي يأخذ القيم
وبين 0 و 1 . للاطلاع على جدول معين ، ونحن أول من حساب توزيع القيم ح ثم احسب رمز Hufiman [37] على [0 ؛ و 1] لهذا التوزيع. المقبل ، ونحن اختيار باء المعلمة التي تدل على حجم الكتلة. القيمة النموذجية ل
باء سيكون 1024 بايت. كتلة مع وباء بايت 8B بت. علينا تفحص تسلسل فرزها من بصمات الأصابع (مبدل) في جدول وتعبئة كتل المتعاقبة على النحو التالي :
الخطوة 1 : والبصمات الأولى في كتلة تذكرت في مجملها. هذا يستهلك 8f بت. بعد ذلك ، هو الخطوة 2 المتكررة لبصمات المتعاقبة حتى كتلة هو الكامل ، أي أننا لا نستطيع القيام الخطوة 2 دون الحاجة 8B + 1 بت أو أكثر.
الخطوة 2 : احتساب XOR من البصمات الحالية مع البصمات السابقة. العثور على موقف mostsigni ficant 1 بت. إلحاق Hufiman رمز لهذا
بت لموقف الكتلة. ثم إلحاق البتات إلى اليمين من معظم - 1 كبيرة بت إلى كتلة.
مفتاح المرتبطة كتلة هو البصمة الأخيرة التي تم تذكرت في تلك الكتلة. عندما (مبدل) البصمات وصول ، واستيفاء البحث [52] على مفاتيح تساعدنا على معرفة أي عرقلة للضغط. يتوقف
قيمة باي ود ، وعلى توزيع بصمات (simhash يميل إلى كتلة من الوثائق المماثلة معا) ، ونحن أحيانا يكون لضغط كتل متعددة.
3.3 خوارزمية للاستعلامات الدفعية
كما هو مذكور في بداية x3 ، في إصدار دفعة من المبالغة المسافة مشكلة ، لدينا مجموعة من البصمات استعلام بدلا من البصمة الانفرادي الاستعلام. نفترض أن يتم تخزين بصمات الأصابع الموجودة في ملف وواو
أن الدفعي البصمات الاستعلام المخزنة في ملف Q. مع 8B 64 البصمات بت سوف واو ملف يحتلون 64GB. الضغط (انظر x3.2) تقليص حجم الملف إلى أقل من 32GB. وقال الدفعي من أجل من 1M بصمات الأصابع ، لذلك اسمحوا لنا أن نفترض أن الملف سؤال تحتل 8MB. في مجموعات ، على سبيل المثال ، الملفات واو وسؤال سوف تكون مخزنة في أي شيء مشترك ، وزعت ملف يسمى نظام إحصاءات مالية الحكومة ([29]. إحصاءات المالية الحكومية الملفات اقتحام 64MB قطع. كل قطعة في ثلاث نسخ (تقريبا) تم اختيارهم عشوائيا الآلات في كتلة ؛ يتم تخزين كل قطعة على شكل ملف في نظام الملفات المحلي.
باستخدام خريطة تقليل الإطار [24] ، ويمكن حساب عموما يمكن تقسيم مريح إلى مرحلتين. في المرحلة الأولى ، كما ان هناك العديد من المهام الحسابية على عدد من كتل من واو (في خريطة تقليل المصطلحات ، وهذه المهام هي
دعا المخططون). كل مهمة يحل مشكلة المبالغة المسافة أكثر من 64 ميغابايت في بعض قطعة من واو والملف بأكمله سؤال كمدخلات. وهناك قائمة من بصمات - مكررة اكتشفت بالقرب من مهمة ينتج عن انتاجها. في المرحلة الثانية ،
خفض خريطة يجمع جميع النواتج ، ويزيل التكرارات وتنتج فرز ملف واحد. نود أن نذكر بضع نقاط عن الكفاءة. أولا ، تسعى جاهدة للحد من خريطة تعظيم المكان ، أي أكثر المخططون هم في موقع مشترك مع الآلات التي تعقد في قطع الموكلة اليهم ، وهذا يجنب قطع الشحن عبر الشبكة. الثاني ، الملف سؤال يوضع في دليل إحصاءات مالية الحكومة مع عامل النسخ المتماثل أكبر بكثير من ثلاثة. ومن ثم نسخ ملف سؤال لمختلف المخططون لا اصبح يمثل عنق زجاجة (يرجى الاطلاع على ورقة إحصاءات مالية الحكومة لمناقشة هذه المسألة). كيف يمكننا حل مشكلة المبالغة المسافة مع ملف سؤال و64 ميغابايت في قطعة من واو الملف؟ علينا أن نبني الجداول ، على النحو المبين في x3.1 الموافق ملف سؤال (لاحظ أن للوضع على الانترنت ، والجداول بنيت لملف واو). لأن كل فرد الجدول مضغوط تحتل 8MB ، يمكننا بسهولة بناء مثل هذه الجداول 10 في الذاكرة الرئيسية ، دون أن تخشى من ضغط. بعد بناء على الجداول ، ونقوم بالبحث عن قطعة بالتسلسل ، الذين يحققون في الجداول عن كل البصمات التي ووجهت في المسح الضوئي.
3.3 العمل السابقة
وهناك نسخة معممة من المبالغة المسافة مشكلة كان اول من اقترح منسكي وبابيرت [44] : وبالنظر إلى مجموعة من السلاسل و ن بت (من اختيار عدو) ، وواو السلسلة ، والهدف من ذلك هو تحديد سلاسل في المجموعة التي تختلف من واو
في في معظم د بت المواقف. لا حلول فعالة معروفة لعامة ن ، و و د وكانت الدراسة النظرية التي بدأها وياو ياو [53]) ، الذي طور خوارزمية eficient لد = 1. والخوارزمية وتحسنت Brodal وGfiasienec [10] وBrodal وكريمو [11]. لالكبيرة د ، بعض التقدم هي التي أبلغت عنها غرين ، Parnas وياو [31] ، دوليف وآخرون [28] وارسلان وEfigeciofiglu [3].
مشكلتنا تختلف من واحدة موجهة من قبل المجتمع نظرية في جانبين. أولا ، علينا أن نفترض أن المدخل يتكون من بت السلاسل المختارة عشوائيا موحد (مع بعض المنظمات غير التوحيد الذي عرضته simhash التجزئة
وثائق مماثلة لقيم مماثلة). ثانيا ، نحن نتعامل مع عدد كبير جدا من بت الجمل التي لا تندرج في الذاكرة الرئيسية للجهاز واحد ، وهذا تحد لنا لخوارزميات بسيطة الذاكرة الخارجية التي تعمل بشكل جيد في تحديد توزيعها.
الشكل 1 : الدقة مقابل أذكر لمختلف k.
4. النتائج التجريبية
أي عمل سابق قام بدراسة للتجارة بين اوفي و ك و لغرض الكشف عن شبه مكررة صفحات الويب باستخدام simhash. لذا هدفنا الأول هو التأكد من simhash هو أسلوب معقول أخذ البصمات للكشف عن قرب مكررة في المقام الأول. نحن simhash الدراسة في x4.1. المقبل ، أردنا أن نتأكد من أن المجموعات التي تنتجها simhash لا تأثير لدينا من معادلات كبيرة. نحن نحلل التوزيعات من بصمات في x4.2. أخيرا ، علينا أن أتناول قضايا تشغل أوقات والتدرجية في x4.3.
4.1 اختيار معلمات
نحن جربت 234 = 8B simhash بصمات الأصابع. نحن ك متنوعة من 1 إلى 10. لكل ك ، ونحن العينة عشوائيا على عدد متساو من أزواج من البصمات التي يتم المبالغة في المسافة بالضبط k. نحن يدويا الموسومة كل زوج على النحو التالي : (1)
حقيقية إيجابية ؛ (2) إيجابية كاذبة ، أو (3) غير معروف. كنا من المبادئ التوجيهية [35] للبت فيها من الفئات الثلاث لوضع الزوج في | مختلفة اختلافا جذريا أزواج كاذبة إيجابية ؛ الصفحات التي تختلف قليلا ، إلا في مثل عدادات ، والإعلانات ، أو
الطوابع الزمنية صحيحا إيجابية ؛ ، والصفحات التي لا يمكن تقييمها ، على سبيل المثال ، بسبب محتوى بلغة غير الانكليزية ، أو لأن هناك حاجة إلى الدخول للوصول إلى صفحة ، ويوصف بانه غير معروف. الشكل 1 يرسم بدقة أذكر الرسم البياني لتجاربنا. الدقة وتعرف بأنها جزء من المبلغ عنها بالقرب من التكرارات
(على سبيل المثال ، وبعد المسافة المبالغة في معظم ك) التي هي ايجابيات صحيحا. أذكر يدل على جزء يسير من العدد الإجمالي للأزواج ، مكررة القريب (في العينة) أن تحصل على الكشف عن المسافة مع المبالغة في معظم k. الشكل 1 يبين بوضوح بين التجارة وأوفيس لقيم مختلفة من ك : قيمة منخفضة جدا يفتقد شبه مكررة (سلبيات واهية) ،
وقيمة عالية جدا السمات أزواج غير صحيح أنها مكررة ، بالقرب من (ايجابيات كاذبة). اختيار ك = 3 هو معقول لأن كلا من الدقة والتذكير بالقرب 0:75. لذلك ، لبصمات 64 بت ، معلنا عن وثيقتين شبه مكررة عند بصماتهم في تختلف في معظم 3 بت يعطي دقة عالية نسبيا.
4.2 توزيع بصمات الأصابع
نحن لدينا تصميم الخوارزمية على افتراض أن بصمات simhash. الوثائق عبر الإنترنت بصورة موحدة عشوائي. ومع ذلك ، يميل إلى simhash العنقودية وثائق مشابهة معا.
الرقم 2 (أ) يوضح هذه الظاهرة من الناحية الكمية.
في الشكل رقم 2 (أ) ، ونحن في مؤامرة لتوزيع بت مواقف رائدة 1 بت في XOR لبصمات الأصابع على التوالي. إذا كانوا حقا بصمات عشوائي ، من شأنه أن شهدنا التوزيع المتناسق الذي من شأنه أن تسوس أضعافا مضاعفة (من ص
قيمة من شأنها أن تقلل بمقدار النصف عن كل الزيادة / إنقاص من قيمة س). علما بأن النصف الأيمن من التوزيع في الواقع يسلك هذا السلوك. ومع ذلك ، فإن اليسار نصف التوزيع لا يسهو اوفي بسرعة ؛ هناك كثافة كبيرة. هذا هو واضح نتيجة لتجميع الوثائق ، وهناك أزواج من الوثائق التي simhash القيم تختلف حسب عدد البتات معتدلة لأنها تحتوي على محتوى مماثل. في الشكل 2 (ب) ، ونحن في مؤامرة لتوزيع 128 البصمات في دلاء ؛ حدود دلو يتم تعريفها من خلال تقسيم المساحة من 128 الى 2f بصمات متساوية الحجم فترات متجاورة. بصمات الأصابع هي أكثر أو أقل من زمنية متساوية. الغريب أن بعض المسامير وجود لها. هذه تحدث نتيجة لمجموعة متنوعة من الأسباب. بعض الأمثلة : (ط) عدة صفحات فارغة ، كل هذه لها قيمة simhash 0 ، (ب) هناك عدة حالات من \ ملف يتم العثور على "صفحات ، و (ج) العديد من المواقع تستخدم نفس لوحة الإعلانات البرمجيات ، والدخول صفحات
هذه المواقع هي مماثلة.
4.3 التدرجية
لوضع دفعة الخوارزمية ، ونسخة من ملف مضغوط سؤال يشغل تقريبا 32GB (بالمقارنة مع 64GB مضغوط). مع 200 المخططون ، يمكننا أن تفحص قطع بمعدل مجتمعة أكثر من 1GBps. حتى انتهاء حساب عموما في أقل من 100 ثانية. ضغط يلعب دورا مهما في تسريع نظرا لعدد محدد من المخططون ، والوقت الذي يستغرقه تقريبا بما يتناسب مع حجم الملف Q.
5. الكشف عن التكرار : دراسة استقصائية
مجموعة متنوعة من التقنيات التي تم تطويرها لتحديد أزواج من الوثائق التي هي "مشابهة" لبعضهما البعض ، وهذه تختلف من حيث الهدف والغاية ، والإحضار قيد النظر ، والميزة في المجموعة التي تم تحديدها في الوثيقة والتوقيع على مخطط للضغط على ميزة في المجموعة ، وفي هذا القسم ، القسم ، فإننا نقدم استعراضا mprehensive القريبة من أنظمة الكشف عن التكرار. وفي عملية تلخيص التصميم الشامل في الفضاء ، ونحن لدينا مشكلة تسليط الضوء على الكيفية يختلف
في وقت سابق العمل والسبب في ذلك مزايا وsimhash النهج القائم.
5.1 طبيعة الإحضار
بصفة عامة ، مكررة أنظمة الكشف وضعت لأربعة أنواع من المجموعات الوثيقة :
أ) مستندات ويب : الأدنى نظم مكررة وقد وضعت من أجل العثور على صفحات ذات الصلة [25] ، لاستخراج البيانات المهيكلة [2]) ، والشبكة العالمية لتحديد المرايا [6،7].
ب) الملفات في نظام الملفات : مانبر [42] تطوير خوارزميات لقرب الكشف عن التكرار للحد من لتخزين الملفات. وVenti ملف النظام [48]) ، وعرض النطاق الترددي منخفض ملف النظام [45] وقد دوافع مماثلة.
ج) البريد الإلكتروني : Kolcz وآخرون [40] تحديد شبه مكررة من أجل الكشف المزعج.
د) المجال - المجاميع الخاصة : مجموعات مختلفة قد وضعت بالقرب من أنظمة الكشف عن وثائق قانونية مكررة (انظر كونراد وSchriber [22]) ، المحركة المقاييس ، رويترز المواد الإخبارية ، وCiteseer البيانات.
عملنا يقع ضمن الفئة الأولى (مستندات ويب). نحن جربت 8B (صفحات هذا هو الطريق أحجام أكبر من جمع للعرقلة من الدراسات السابقة : على شبكة الإنترنت عن طريق تجميع برودور وآخرون [14] (30M عناوين المواقع في عام 1996) ، "ذات صلة" صفحات من قبل عميد الكلية وHenzinger [25] (180m في عناوين المواقع 1998) ، على شبكة الإنترنت عن طريق تجميع Haveliwala وآخرون [33] (35M عناوين المواقع في عام 2000).
5.2 إن نهاية الهدف : لماذا كشف مكررة؟
أ) ويب المرايا : للبحث على شبكة الإنترنت ، وتحديد الناجح لشبكة الإنترنت المرايا النتائج في أصغر الزحف / التخزين / تكاليف الفهرسة في ظل غياب شبه مكررة ، وأفضل النتائج من أعلى ك للاستعلامات البحث ، والتحسن في الصفحة ، عن طريق تخفيض رتبة
في هذه الدرجة من المواقع الناجمة عن قرب مكررة ، وتوفير التكاليف التي لا نطلب من الإنسان إلى رتبة المقيمون بالقرب من التكرارات. انظر بهارات وآخرون [6 ، 7] لإجراء مقارنة بين تقنيات التعرف على شبكة الإنترنت المرايا.
ب) للتقسيم "الوثائق ذات الصلة" الاستعلام : فعلى سبيل المثال ، وبالنظر إلى المادة الإخبارية ، على الويب سيرفر قد تكون مهتمة في العثور على المواد الإخبارية من مصادر أخرى أن
التبليغ عن نفس الحدث. مفهوم "التشابه" هو على مستوى عال (يمكن لأحد أن يقول أن فكرة التشابه هو "الدلالي" بدلا من "النحوية" ، مختلفة تماما
من فكرة التكرار أو شبه مكررة التي نوقشت أعلاه. نهج واحد هو استخدام خفية الفهرسة الدلالي [26]. ثمة نهج آخر هو استغلال بنية الربط بين شبكة الويب (انظر دين وHenzinger [25] الذين يبنون عليها كلينبيرج فكرة المحاور والسلطات [39]). المضي قدما على هذا المنوال ، كومار وآخرون [41] قد اقترحت اكتشاف \ المجتمعات المحلية على الانترنت "من خلال تحديد كثافة شبه ثنائية الرسوم البيانية للشبكة الإنترنت الرسم البياني.
ج) واستخراج البيانات : نظرا معتدلة الحجم مجموعة من صفحات مماثلة ، ويقول في استعراض www.imdb.com ، والهدف هو التعرف على المخطط / اليومي الكامنة وراء جمع حتى نتمكن من استخراج وتصنيف المعلومات المفيدة من هذه الصفحات. انظر جوشي وآخرون [38] (والإشارات الواردة فيه) للتقنية التي كتل صفحات على شبكة الإنترنت على أساس التشابه الهيكلي. انظر Arasu وجارسيا مولينا ([2] لأسلوب آخر أن يحدد القوالب الكامنة صفحات مع هيكل مماثل. نلاحظ أيضا أن البيانات الوصفية (تم تجاهل السمات أتش تي أم أل) في (أ) و (ب) أعلاه.
د) الإنتحال : وبالنظر الى مجموعة من التقارير والمقالات أو دفوع الاحالة (وكلاهما مصدر رمز وتقارير نصية) ، والهدف من ذلك هو تحديد أزواج من الوثائق التي يبدو انها اقترضت من بعضهما البعض بشكل كبير. بالنسبة لبعض العمل في وقت مبكر في هذا المجال ، انظر المواد التي يقوم بها بيكر [4 ، 5] ، ونظام مؤتمرات الأطراف عن طريق برين وآخرون ([8] واحتيال من قبل شيفاكومار وجارسيا مولينا ([51].
ه) الكشف المزعج : ونظرا لعدد كبير من تلقى مؤخرا رسائل البريد الإلكتروني ، والهدف من ذلك هو التعرف على الرسائل الاقتحامية قبل إيداع البريد الإلكتروني في علب البريد 'المستلمين. أل
الافتراض هو ان يحتفظ مماثلة إرسال رسائل البريد الإلكتروني بشكل جماعي ، مع تغير طفيف في الجسم من هذه الرسائل الإلكترونية. انظر Kolcz وآخرون [40] ، الذين نبني على عمل سابق لشودري وآخرون [20].
و) التكرارات في المجال المجاميع محددة : إن الهدف هو تحديد شبه مكررة الناشئة عن تنقيحات ، مودى - fications ، أو الاندماج نسخ من الوثائق ، وما إلى ذلك (انظر كونراد وSchriber [22]) لدراسة الحالة التي تنطوي على وثائق قانونية وطيد. مانبر [42] بدأت تحقيقا في التعرف على ملفات مماثلة في نظام الملفات. لدينا شبه مكررة يحسن نظام الكشف عن الزحف على شبكة الإنترنت ، وهو هدف لا يشارك مع أي من النظم الموصوفة أعلاه.
5.3 ميزة تعيين لكل وثيقة
والألواح) من محتوى الصفحة : النظر في تسلسل الكلمات في المستند. وحصى هو تجزئة القيمة لك جرام وهو شبه تسلسل ك الكلمات المتعاقبة. مجموعة من ألواح تشكل مجموعة من الميزات وثيقة. اختيار ك هو crucial3. ويمكن من علامات الرقم ك المتعاقبة غرام بكفاءة حسابها باستخدام تقنية البصمات رابين [49]. مانبر [42] خلق الواح على الحروف. نظام مؤتمرات الأطراف عن طريق برين وآخرون ([8] الجمل المستخدمة لإنشاء القوباء المنطقية. برودر وآخرون [12 ، 14] خلق الواح أكثر من الكلمات. العدد الإجمالي للالواح في الوثيقة بوضوح كبير. ولذلك ، صغيرة الحجم يتم حسابها التوقيع على مجموعة من الألواح ، كما هو موضح في القسم الفرعي التالي.
ب) من الوثيقة ناقلات محتوى الصفحة : وعلى النقيض من القوباء المنطقية ، يمكن وصف وثيقة تكون عن طريق نشر تقنيات الأشعة تحت الحمراء التقليدية. والفكرة هي لحساب وثيقة "متجه" من قضية قابلة للطي ، ووقف نقل الأمتعة الكلمة ، ووقف ، والحوسبة الأجل الترددات وأخيرا ، وتزن كل مصطلح من ترددها معكوس الوثيقة (الجيش الاسرائيلي). التالي ، نظرا ثيقتين ، أ \ التدبير "التشابه يتم تعريفها. هواد وزوبل [36] القول بأن جيب التمام التقليدية لقياس التشابه غير كافية للكشف عن ازدواجية القريب. انهم تحديد وتقييم مجموعة متنوعة
of similarity measures (but they do not develop any signature-scheme to compress the document-vectors). A different approach is taken by Chowdhury et al [20] who compute a lexicon (the union of all terms existing in the collection of documents). The lexicon is then pruned (a variety of schemes are studied by the authors). Each document-vector is then modified by removing terms that have been pruned from the lexicon. The resulting document-vectors are fingerprinted. Two documents are said to be near-duplicates ifi their fingerprints match. This scheme is rather brittle for near duplicate detection { a follow-up paper [40] ameliorates the problem by constructing multiple lexicons (these are random subsets of the original lexicon). Now multiple fingerprints per document are computed and two documents are said to be duplicates ifi most of their fingerprints match. An issue to keep in mind when dealing with document vectors
is that the IDF of any term is global information which changes as the collection changes.
c) Connectivity information: For the purpose of finding \related pages", Dean and Henzinger [25] exploited the linkage structure of the web. The premise is that similar pages would have several incoming links in common. Haveliwala et al [34] point out that the quality of duplicate detection is poor for pages with very few incoming links. This can be ameliorated by taking anchor text and anchor windows into account.
d) Anchor text, anchor window: Similar documents should have similar anchor text. Haveliwala et al [34] study the impact of anchor-text and anchor-windows,
where an anchor-window is the text surrounding the anchor text, for example, the paragraph it belongs to. The words in the anchor text/window are folded into the
document-vector itself. A weighing function that diminishes the weight of words that are farther away from the anchor text is shown to work well.
e) Phrases: Cooper et al [23] propose identification of phrases using a phrase-detection system and computing a document-vector that includes phrases as terms. They have tested their ideas on a very small collection (tens of thousands). The idea of using phrases also appears in the work of Hammouda and Kamel [32] who build sophisticated indexing techniques for web-clustering.
We chose to work with the document vector model; simhash converts document vectors into fingerprints. Augmenting the document vector by other signals (anchor text and connectivity information, for example) might improve the quality
of our system. We leave these possibilities as future work.
5.4 Signature schemes
a) Mod-p shingles: A simple compression scheme for shingle based fingerprints is to retain only those fingerprints whose remainder modulus p is 0, for a sufficiently large value of p. The number of fingerprints retained is variable sized. Moreover, it is important to ignore commonly occurring fingerprints since they contribute to false-matches. A drawback of this scheme is that the distance between
successive shingles that are retained, is unbounded. This problem has been ameliorated by the “winnowing" technique by Schliemer et al [50]. Hoad and Zobel [36] compare a variety of other ideas for pruning the set of shingle-based fingerprints.
b) Min-hash for Jaccard similarity of sets: For two sets A and B, let the measure of similarity be jA\Bj jA[Bj , also known as the Jaccard measure. Interestingly, it is possible to devise a simple signature scheme such that the probability that the signatures of A and B match is exactly the Jaccard measure [13, 14]. Several experimental studies have tested the eficacy of min-hash in various settings (Cohen et al [21] for associationrule mining, Chen et al [18] for selectivity estimation of boolean queries, Gionis et al [30] for indexing set-value predicates and Haveliwala [33] for web-clustering).
c) Signatures/fingerprints over IR-based document vectors: Charikar's simhash [17] is a fingerprinting technique for compressing document vectors such that two
fingerprints are similar ifi the document vectors are similar. Another technique for computing signatures over document-vectors is the I-Match algorithm by Chowdhury et al [20] that we described earlier. An improved I-Match algorithm appears in [40]. These algorithms have been tested on small document- collections (of the order of tens of thousands) and appear fairly brittle.
d) Checksums: Pugh and Henzinger's patent [47] contains the following idea: we divide words in a document into k buckets (by hashing the words, for example), and compute a checksum of each bucket. The set of checksums of two similar documents should agree for most of the buckets. We chose to work with simhash primarily because it allows us to work with small-sized fingerprints.
6. FUTURE EXPLORATIONS
Using simhash is a good first step for solving the near duplicate detection problem. Many other ideas hold promise of improving the quality of near-duplicate detection, and/or making the system more efficient. We list a few:
A. Document size has been shown to play an important role in near-duplicate detection in certain contexts. For example, in Conrad and Schriber [22], two legal documents are deemed to be duplicates ifi they have 80% overlap in terminology and fi20% variation in length (these were arrived at by consulting the Library Advisory Board who are trained in the field of Library Science). ربما
we should devise different techniques for small and large documents. Or perhaps, we should reserve a few bits of the 64-bit fingerprint to hold document length. B. Is it possible to prune the space of existing fingerprints by asserting that certain documents never have duplicates?
C. Could we categorize web-pages into different categories (for example, by language type), and search for near duplicates only within the relevant categories.
D. Is it feasible to devise algorithms for detecting portions of web-pages that contains ads or timestamps? Perhaps such portions can be automatically removed so that exact checksums over the remaining page suffice for duplicate
الكشف.
E. How sensitive is simhash-based near-duplicate detection to changes in the algorithm for feature-selection and assignment of weights to features?
F. How relevant are simhash-based techniques for focused crawlers [27, 43, 46] which are quite likely to crawl web pages that are similar to each other.
G. Can near-duplicate detection algorithms be developed further to facilitate clustering of documents?
7.Summary
Most algorithms for near-duplicate detection run in batchmode over the entire collection of documents. For web crawling, an online algorithm is necessary because the decision to ignore the hyper-links in a recently-crawled page has
to be made quickly. The scale of the problem (billions of documents) limits us to small-sized fingerprints. Luckily, Charikar's simhash technique with 64-bit fingerprints seems to work well in practice for a repository of 8B web pages.
8. المراجع
[1] A. Arasu, J. Cho, H. Garcia-Molina, A. Paepcke, and S. Raghavan. Searching the web. ACM Transactions on Internet Technology, 1(1):2{43, 2001.
[2] A. Arasu and H. Garcia-Molina. Extracting structured data from web pages. In Proc. ACM SIGMOD 2003, pages 337{348, 2003.
[3] A. N. Arslan and ? O. Efigeciofiglu. Dictionary look-up within small edit distance. In Proc. 8th Annual Intl. Computing and Combinatorics Conference
(COCOON'02), pages 127{136, 2002.
[4] B. S. Baker. A theory of parameterized pattern matching algorithms and applications. In Proc. 25th Annual Symposium on Theory of Computing (STOC
1993), pages 71{80, 1993.
[5] B. S. Baker. On finding duplication and near-duplication in large software systems. In Proc. 2nd Working Conference on Reverse Engineering, page 86, 1995.
[6] K. Bharat and A. Broder. Mirror, mirror on the Web: A study of hst pairs with replicated content. In Proc